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شكر وتفدير 


عندما Gus‏ لبيتر إني ai‏ أن أشكره على مساهمته في هذا USI‏ اقترح عل 
الآتي: «أُودٌ أن أشكر بيتر هاربرء الذي لولا استخدامه المتفاني للمدقق الإملائيء 
لكان هذا GES‏ مختلفاء. كما آود of‏ أشكرة عن Spd‏ ف إغداك Bg gill‏ وما 
giai‏ به من حس الدعابة! هذا الدعم» في حد ذاته» لا 5385 بثمن» ولكنء ما فعله 
بيتر يفوق ذلك بكثيرء ولن أبالغ حين أقول إنه لولا تحفيزه المستمر ومساهماته 
البناءةء لم يكن لهذا الكتاب أن يرى النور. 
دون Shee‏ 
أبريل ۲۰٠۱۷‏ 


دمهيد 


تندرج الكتب التي تتناول موضوع البيانات الضخمة ضمن أحد تصنيقين: Ll‏ نها لا eas‏ 
GI‏ تفسيراتٍ عن آلية عمل البيانات الضخمة»ء Gly‏ أنها تكون GS‏ دراسية مُتخصّصة في 
مجال الرياضيات لا تصلح إلا لطلاب الدراسات العليا. يهدف هذا الكتاب إلى تقديم بديل 
عن طريق توفير مقدمة إلى آلية عمل البيانات الضخمة وكيفية تغييرها للعالم من حولناء 
وتأثيرها في حياتنا اليوميةء وقي alle‏ الأعمال. 

كانت البيانات تعني في الماضي المستندات والأوراق» وربما بعض الصورء ولكنها 
أصبحت تعني الآن AST‏ من ذلك بكثير. تنتج مواقع شبكات التواصل الاجتماعي كل 
دقيقة كمياتٍ EAS‏ من البيانات على هيئة صورء ومقاطع فيديوء وأفلام. ويُّنتج التسوق 
عبر الإنترنت بيانات عندما نُدخل عناويننا وبيانات بطاقاتنا الاتتمانية. ووصلنا ÓL‏ إلى 
مرحلة أصبح فيها جمع البيانات وتخزينها يتطوّر على نحو لم نكن نتخيّله منذ بضعة 
عقوف منكت. ولك كما co pds‏ ف هذا الكتاب Shs‏ أستاليب falas‏ الييانات الجديدة pad‏ 
هذه البيانات إلى معلومات مفيدة. أثناء تأليف هذا الكتابء ofS‏ لي أنه لا يمكن مناقشة 
موضوع البيانات الضخمة على نحو toe‏ من دون التطرق مرارًا وتكرارًا إلى عمليات 
جمعهاء وتخزينهاء وتحليلهاء واستخدامها من قبل الشركات التجارية الكبرى. وبما أن 
الأقسام البحثية في شركات على غرار جوجل وأمازون هي المنوط بها مسئولية الكثير من 
التطورات الرفيسية فا محال البيانات الحنهمة: قوف د كرها مرازا Aer‏ 

يُعرّف الفصل الأول القارئ بتنوع البيانات بوجه عام» قبل أن يشرح كيف أدّى 
العصر الرقمي إلى تغييرات في طريقة تعريفنا للبيانات. تُطرَّح البيانات الضخمة على نحو 
غير رسمي عبر فكرة انفجار البيانات» والتي تتضمّن علوم الكمبيوتر» ales‏ الإحصاءء 
ونقاط الالتقاء بينهما. في الفصول من الثاني إلى الرابع» استخدمتٌ الأشكال التخطيطية 


البيانات الضخمة 


عل ga‏ مكلف لشافدكن ق eb‏ حكن من GLa‏ التديدة abti gales a‏ 
الفحفية N JERS SS‏ عن أسات E‏ البيافاف الكبفمة. وه ها E‏ إل 
تعريفٍ Gy [gl yas Ss‏ الفصيل aaa) evs all tat ull‏ ر اة 
الضخمة وإدارتها. بُدرك أغلب الناس الحاجة إلى الاحتفاظ بنسخة احتياطية من البيانات 
على أجهزة الكمبيوتر الشخصية. ولكن» كيف نفعل ذلك مع الكميات الهائلة من البيانات 
التي يجري إنتاجها SIL‏ للإجابة عن هذا السؤال» سنتناول تخزين قواعد البيانات وفكرة 
توزيع المهام على مجموعات مترابطة من أجهزة الكمبيوتر. يبرهن الفصل الرابع على أن 
البيانات الضخمة لا تكون مفيدة إلا إذا تمكّنا من استخراج معلومات مفيدة منها. ونعطي 
dat‏ عن كيفية jas‏ البيانات إلى معلومات باستخدام شروح مبسّطة للعديد من الأساليب 
الراسخة: 

بعد ذلك ننتقل إلى مناقشة أكثر تفصيلًا عن تطبيقات البيانات الضخمة؛ Gus‏ 
نبداً في الفصل الخامس بدّور البيانات الضخمة في مجال الطب. ويحلّل الفصل السادس 
الممارسات التجارية باستخدام دراستّي UL‏ عن شركتي أمازون ونتفليكس» تبرز كل 
منهما سمات مختلفة للتسويق SEEEN basinal‏ يتناول الفصل السابع بعض 
مشكلات الأمان التى تحيط بالبيانات الضخمة وأهمية التشفير. أصبحت سرقة البيانات 
مف dus‏ اول yams‏ اقاي Cal)‏ اروها ال GUAT gad‏ ودن 
وويكيليكس. ويّختّتم الفصل بتوضيح كيف أن جرائم الإنترنت أضحت من المشكلات التي 
Jo hss‏ البيانات اله لوا ق الل الكامن glitter ly‏ كيف ر ااه 
الضخمة المجتمع الذي نعيش فيه؛ وذلك من خلال إنشاء الروبوتات المتطوّرة ودورها في 
مكان العمل. ونختتم الكتاب بتناول المنازل الذكية والمدن الذكية المستقبلية. 

لا يمكن أن نستوفي في مقدمة قصيرة Ibe‏ كل شيء في هذا الصدد» ومن ثم» آمل 
أن يواصل القارئ مطالعة الموضوعات التى تهمه من خلال الاستعانة بالتوصيات التى 
أوقدناها sacs‏ قر داك ١ Ghia‏ 


الفصل الأول 


انفجار البيانات 


ما البيانات؟ 


في عام EYN‏ قبل الميلادء أعلنت أسبرطة الحرب على أثينا. يصف ثيوسيديدزء في روايته 
غق yall‏ كيف abs‏ القوات:البلاقية المحاشرة الموالية LAY‏ للهرب عن طريق تملق 
الجدار المحيط ببلاتايا الذي بنته القوات البيلوبونيسية تحت القيادة الأسبرطية. ولكي 
يتمكّنوا من ذلك, كانوا يحتاجون إلى معرفة ارتفاع الجدار حتى يصنعوا سلالم ذات طول 
مناسب. كانت أجزاء كثيرة من الجدار البيلوبونيسي Blais‏ بالجص الخشنء إلا أنهم عثروا 
على جزء dis‏ حيث كان الطوب لا يزال ظاهرًا بوضوح» وكُلّف عدد كبير من الجنود بمهمة 
عد طبقات هذا الطوب المكشوف. كان العمل يمنأى آمن عن هجمات gaal‏ يقتضي حتمًا 
وجود أخطاء» ولكنء كما uag‏ ثيوسيديدزء مع التسليم بإجراء Base Sle sall‏ فإن 
النتيجة الأكثر تكرارًا ستكون هي الصحيحة. هذا العدد الأكثر تكرارًاء والذي سنطلق عليه 
الآن «المنوال»» استّخْدِم بعد ذلك لحساب ارتفاع الجدار؛ فقد كان البيلويونيسيون يعرفون 
aa‏ لظو الكل بتكي eae‏ الملاله د ی ag sles‏ 
هذا قوةٌ مؤلّفة من ae‏ مكات من الرجال من الهربء ويمكن اعتبار هذه الحادثة أكثر 
مثال لافت للنظر في تاريخ جمع البيانات وتحليلها. ولكن» يرجع جمع البيانات» وتخزينهاء 
وتحليلها إلى ما قبل عصر ثيوسيديدز بقرون» كما سنرى Bad‏ 

وُجدت علامات محفورة على عصي» وأحجار» وعظام» تعود إلى العصر الحجري القديم 
الأعلى. ويُعتقد أن هذه الحزوز كانت بغرض تمثيل البيانات الُْخزَّنة كعلامات إحصاء 
ولكنء لا يزال هذا الاعتقاد مفتوحًا للنقاش الأكاديمى. ولعل أشهر مثال على ذلك هو 
dake‏ إشانجوء التي عُثر عليها في جمهورية الكونفى الديمقراطية عام ٠۹٠١‏ ويُّقدّر 
عمرها بحوالي ٠١‏ ألف سنة. تعدّدت التفسيرات لهذه العظمة المحزّزة ما بين كونها آلة 
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حاسبة أو رزنامة؛ في حين فصل آخرون تفسير وجود العلامات عليها بأنها بغرض إحكام 
مسكها. عظمة ليبومبوء الكتشفة في سبعينيات القرن العشرين في سوازيلاندء أقدم من 
سابقتها؛ حيث يرجع تاريخها إلى حوالي Yo‏ ألف سنة قبل الميلاد. تحتوي هذه الشظية 
من عظمة قرد البابون» على تسعة وعشرين خطًا عرضيًا تشبه DAS‏ عصي التقويم التي 
لا يزال شعب البوشمن يستخدمونها في أقاصي ناميبياء ما يدل على أنها ربما كانت Lis‏ 
)£55 و Auth‏ الات التي og‏ ححا د 

على الرغم من أن تفسير هذه العظام المحزّزة لا يزال مفتوحًا للتخمينء فإننا نعلم 
أن أحد أول استخدامات البيانات الجيدة التوثيق كان الإحصاء السكاني الذي أجراه 
cy galalal‏ هام “۸ قبل gig wlll‏ هذا slash‏ السكاى Ry plas‏ مدينجية عدر السكان 
زف اله ال و الح توشب المذاوهات اللدرمة لبان الوا ple al‏ 
المصريون القدماء أيضًا البيانات» في صورة كتابات هيروغليفية على الخشب أو ورق البردي؛ 
من أجل تسجيل pilus‏ البضائع ومتابعة الضرائب. ولكنء الأمثلة الأولى على استخدام 
البيانات ليست قاصرةء بأي حال من الأحوالء على أوروبا وأفريقيا. كان شعب الإنكاء ومن 
سبقهم من شعوب أمريكا الجنوبية حريصين على تسجيل الإحصاءات لأغراض ضريبية 
aal‏ نظام يفنا ی من الخدوط اة ااا ا كانت (pad‏ 
«كيبى»؛ ليكون بمثابة نظام محاسبة عشري. ترجع هذه الخيوط Bagel!‏ المنسوجة من 
وبر الإبل أو القطن المصبوغ بألوان فاتحةء إلى الألفية الثالثة قبل الميلاد» ومع أنه من 
المعروف أن إجمالي ما نجا من الغزو الإسباني وما تلاه من محاولات لطمس هذه الخيوط 
يقل عن ألف خيطء فإنها aad‏ من أوائل الأمثة المعروفة على أنظمة تخزين البيانات 
العملاقة. يجري حاليًا تطوير خوارزميات الكمبيوتر في محاولة لتفسير المعنى الكامل 
لخيوط «الكيبو»» وتعزيز فهمنا لكيفية استخدامها قديمًا. 

على الرغم من إمكانية التفكير في هذه الأنظمة المبكرة ووصفها بأنها تستخدم البياناتء 
فإن كلمة Data‏ (أي بيانات) هي في الحقيقة صيغة جمع ذات أصل لاتيني» ومفردها 
Datum‏ ونادرًا ما تُستخدم كلمة Datum‏ في العصر الحالي؛ ومن 63 نُستخدم كلمة Data‏ 
تعبيرًا عن صيغتّي المفرد والجمع. ينسب «قاموس أكسفورد الإنجليزي» أول استخدام 
معروف للكلمة إلى الكاهن الإنجليزي هنري هاموند خلال القرن السابع عشرء وكان ذلك 
في منشور ديني phe‏ للجدل نشر عام VIEA‏ استخدم هاموند في هذا المنشور عبارة «كومة 
م البياناك» يهوم لوقي في BLS]‏ إل gilda‏ الدينية الى له تفيل الجدل::ولكن: 


\Y 
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على الرغم من أن هذا المنشور يبرز بوصفه أنه يمثل أول استخدام لكلمة «بيانات» في اللغة 
الإنجليزية» فإنه لا يتضمَّن استخدامها بالمفهوم العصري الذي يعني الحقائق والأرقام 
المتعلّقة بمجموعة معينة هى موضع اهتمام. تعود SLES‏ مصطلح «البيانات»» بمفهومه 
الحاليء إل القورة العلمية ف القرن الثامن phe‏ بقيادة عمالقة المفگرين أمثال بريستليء 
ونيوتن» ولافوازييه» ويحلول عام ۱۸۰۹ء بعد أعمال slale‏ الرياضيات الأوائل» أرسى US‏ 
من جاوس ولابلاس أسسًا رياضية للغاية للمنهجية الإحصائية الحديثة. 

على مستوّى أكثر عملية» جُمعت كمية هائلة من البيانات خلال تفشي وباء الكوليرا عام 
٤‏ في شارع برود بمدينة gail‏ ما So‏ الطبيب جون سنو من إعداد مخطط بياني عن 
حالة التفشي هذه. وبذلك» تمكّن من دعم فرضيته أن الماء الملوّث تسبّب في انتشار المرض› 
وإثبات أن المرض لا ينتقل عبر الهواء كما كان يُعتقد سابقًا. بجمع البيانات من السكان 
المحليين» أثبت أن المصابين بالمرض ISE‏ يستخدمون جميعهم مضخة المياه العمومية 
نفسها؛ ومن AS‏ أقنع المسئولين المحليين عن الأبرشية بإغلاقهاء المهمة التي أنجزوها عن 
طريق إزالة مقبض المضخة. بعد ذلك» وضع سنو خريطةء صارت مشهورةً حاليًاء تظهر 
أن المرض ظهر في مجموعات عنقودية SEES‏ بورد ستريت. Qualys‏ سنو 
العمل في هذا الصدد» حيث راح يجمع البيانات ويحلّلهاء واشتهر بكونه أحد اختصاصيي 
الأويكة الرواد. 

بعد البحث الذي edd‏ جون سنوء تزايد استخدام اختصاصيي الأوبئة وعلماء الاجتماع 
للبيانات الديموجرافية اللازمة للأغراض البحثيةء وأثبت das]‏ السكاني الذي أصبح 
a‏ الك ذا الوه الول ال مهدو tks‏ لوذه الكو داه عل ستول اال sce‏ 
الآن كل البيانات الخاصة بمعدلات المواليد والوَفَيّات» وتكرار الإصابة بمختلف الأمراض» 
وإحصاءات الدخل والجريمةء ولم يكن الحال على هذا المنوال قبل القرن التاسع عشر 
أصبح الإحصاء السكانيء الذي Coad‏ كل عشرة أعوام في أغلب gall‏ يجمع كميات 
متزايدة من البيانات» وهو ما زادء في نهاية المطاف» Lee‏ يمكن تسجيله باليد أو بأجهزة 
الإحصاء البسيطة التي كانت مستخدمةٌ سابقًا. تم التصدي Gija‏ لتحدي معالجة هذه 
الكميات المتزايدة ما الإحصاء السكانى من قبل هيرمان هوليريث أثناء عمله في 
مكتب كعدان الولايات المتحهدة. 

بحلول موعد التعداد الأمريكي alal‏ ١۱۸۷ء‏ أصبحت أجهزة إحصاء بسيطة قيد 
الاستخدام» إلا أن هذا لم يُحقق إلا نجاحًا محدودًا في تقليل كم العمل الذي يؤديه مكتب 
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التعداد. ولكن حدثت طفرة cele‏ في أوانها قبل تعداد عام 186٠‏ عندما استّخدِمّت آلة 
تبويب البطاقات dll‏ التي اخترعها هيرمان هوليريث لتصنيف البيانات ومعالجتها. 
كانت معالجة بيانات التعداد الأمريكي تستغرق في المعتاد ثماني سنوات» ولكن» باستخدام 
هذا الاختراع الجديد تقلّصت هذه الفترة إلى سنة واحدة. وهكذاء أحدثت آلة هوليريث ثورة 
في تحليل بيانات التعداد السكاني في جميع بلدان العالم» بما في ذلك LSU‏ وروسياء 
والنرويج» وكويا. 

بعد ذلك» باع هوليريث آلته إلى الشركة التي تطوّرت فيما بعد لتصبح شركة آي بي 
«al‏ والتى طوّرت فيما das‏ وأنتجت سلسلة واسعة الانتشار من آلات البطاقات المثقبة. 
عام AATA‏ عبن المعهد الأمريكي للمعايير الوطنية كود هوليريث للبطاقات المثقبة gl)‏ كود 
بطاقات هوليريث) بوصفه معيارًا؛ تكريمًا لهوليريث على ابتكاراته السابقة لأوانها في مجال 
البطاقات المثقبة. 


البيانات في العصر الرقمي 


قبل استخدام أجهزة الكمبيوتر على نطاق واسع» كانت بيانات التعداد السكاني» أو التجارب 
العلميةء أو استطلاعات رأي واستبيانات العينات المصمّمة بعناية Jud‏ على الورقء العملية 
التي كانت تستهلك الكثير من الوقت والمال. لم يكن جمع البيانات يبدأ إلا بعدما يُقرّر 
الباحثون الأسئلة التي يريدون أن تجيب عنها تجاربهم أو استطلاعاتهم؛ ومن AS‏ يُمكن 
التعامل بسهولة مع Sb‏ الناتجة المهيكلة GLU‏ المدوّنة على الورق في صفوف وأعمدة 
pacer‏ باستخدام طرق التحليل الإحصائي التقليدية. بحلول النصف الأول من القرن 
ارين ك يعض الفانات عل اة الكنيوي جا ساعن ى ت عوه من هذا 
العمل الذي يتطلّب الكثير من الأيدي العاملةء ولكنء بإطلاق شبكة الإنترنت العالمية (الويب) 
عام ٩۱۹۸ء‏ وتطوّرها السريع» زادت إمكانية إنتاج» وجمع» وتخزينء وتحليل البيانات 
إلكترونيًا. بعد ذلك» ظهرت الحاجة إلى علاج المشكلات الحتمية التي نتجت عن الكم الهائل 
من البيانات التي أصبح من السهل الوصول إليها Lai‏ شبكة الويب» وسنتناول Yel‏ 
كيفية التمييز بين أنواع البيانات المختلفة. 

يمكن تصنيف البيانات التي نستخرجها من شبكة الويب إلى بيانات هيكلية» أو غير 
هيكلية» أو شبه هيكلية. l‏ 
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انفجار البيانات 


أصبحت le‏ البيانات الهيكليةء من النوع المكتوب Égi‏ والمحفوظ في دفاتر gh‏ في 
خزانات الملفات» oS‏ إلكترونيًا في جداول بيانات أو قواعد بيانات» وتتكوّن من جداول 
منسقة على هيئة جداول بيانات تتضمّن صفوفًا وأعمدة. كل صف flay‏ جل وكل عمود 
يكل Sas‏ كد ا مدل الاسعه أى"العنؤاق» أ السّن): ن ف stoe‏ 
الهيكلية هذه عندما نُدخْلء على سبيل JEM‏ المعلومات الضرورية لطلب سلعة ما عبر 
الإنترنت. إن البيانات الهيكلية والمجدولة بعناية من السهل نسبيًا إدارتهاء وتكون ALLE‏ 
للتحليل الإحصائي؛ ذلك أنه حتى وقت قريب لم يكن من الممكن تطبيق أساليب التحليل 
الإحصائي إلا على البيانات الهيكلية. 

على النقيض من ذلك» البيانات غير الهيكلية ليس من السهل تصنيفهاء وتحتوي على 
صورء ومقاطع «gud‏ وتغريدات» ومستندات معالجة نصوص. بمجرد انتشار استخدام 
شبكة الإنترنت العالمية» gus‏ أن عددًا كبا من مصادر المعلومات المحتملة ظل الوصول 
tah‏ مت كا ادت الميكلة الطلوية لخطديق اعا الخمليل Rasta‏ ولكن Ava‏ 
خلال تحديد السمات الرئيسيةء يتضح أن البيانات التي تبدو للوهلة الأولى غير هيكلية قد 
لا تكون من دون هيكلة على الإطلاق. تحتوي رسائل البريد الإلكتروني» على سبيل المثالء 
على «بيانات تعريف» هيكلية في العنوان الرئيسي» ولكن الرسالة الفعلية غير الهيكلية توجد 
في نص الرسالة؛ ومن Ad‏ يمكن تصنيفها على أنها بيانات شبه هيكلية. يمكن استخدام 
علامات بيانات التعريف» وهى في الأساس إشارات وصفيةء لإضافة بعض الهيكلة إلى 
البيانات غير الهيكلية. إن إضافة كلمة وصفية إلى صورة على موقع إلكتروني تجعلها 
قابلة للتحديد» وتُسهّل كثيرًا من البحث عنها. توجد البيانات شبه الهيكلية LAÍ‏ في مواقع 
شبكات التواصل الاجتماعي التي تستخدم الوسوم حتى يمكن تحديد الرسائل (التي هي 
بيانات غير هيكلية) عن موضوع مُعيّن. إن التعامل مع البيانات غير الهيكلية أمر صعب؛ 
بما أنه لا يمكن تخزينها في قواعد أو جداول البيانات التقليدية» فلا بد من تطوير أدوات 
خاصة لاستخراج معلومات مفيدة منها. في الفصول الآتيةء سنتناول كيفية تخزين البيانات 
غير الهيكلية. 

يشير مصطلح «انفجار البيانات»» عنوان هذا ل إلى الكم الهائل المتزايد من 
البيانات الهيكلية» neg‏ الهيكلية» وشبه ا التي تنج كل digs‏ وسنتناول Lay‏ 
بعضًا من المصادر الكثيرة المختلفة التي تنتج كل هذه البيانات. 


البيانات الضخمة 
مقدمة إلى البيانات الضخمة 


أكناة بخ Sul ge‏ التي ساستخدميا فى هذا oped US‏ جالكة ab‏ الحدود من 
البيانات المتوافرة على شبكة الإنترنت — من المواقع الإلكترونيةء والمجلات العلميةء والكتب 
الدراسية الإلكترونية. طبقًا لدراسة عالمية حديثة أجرتها شركة آي بي cal‏ حوالي ۲,١‏ 
إكسابايت من البيانات gh‏ كل يوم. الإكسابايت الواحد يساوي "٠١‏ (واحدًا متبوعًا 
بثمانية phe‏ صفرًا) بايت gf)‏ مليون تيرابايت؛ انظر جدول الحجم بالبايت في نهاية هذا 
الكتاب). إذا اشتريت كمبيوترًا محمولًا جيدًا في وقت تأليف هذا الكتاب» فإنه سيحتوي 
عادةً على قرص صلب سعته التخزينية واحد أو اثنان تيرابايت. في البدايةء أشار مصطلح 
«البيانات الضخمة» إلى الكميات الكبيرة للغاية من البيانات التى تنج في العصر الرقمى. 
وتشمل تلك الكميات الهائلة من البيانات» سواءٌ كانت هيكليةٌ أو غير هيكليةء جميع بيانات 
شبكة الإنترنت الناتجة عن رسائل البريد الإلكتروني, والمواقع الإلكترونية» ومواقع شبكات 
التواصل الاجتماعي. ١‏ 

حوالي ۸٠‏ بالماكة من بيانات العالم عبارة عن بيانات غير هيكلية في هيكة نصوص 
وصور؛ ومن ثم فإنه لا يمكن التعامل معها باستخدام أساليب تحليل البيانات الهيكلية 
التقليدية عليها. لم يعد مصطلح «البيانات الضخمة» يُستخدم Ge‏ للإشارة إلى إجمالي 
كمية البيانات الناتجة والمخرنة إلكترونيًا فحسب» بل أصبح يشير LAÍ‏ إلى مجموعات 
البيانات الكبيرة من حيث الحجم والتعقيدء والتي تتطلّب أساليب خوارزمية جديدة 
لاخر الو كدوام مكو هديا alias CAKES SG‏ محتافة: 
ولذا دعونا نتناول بعضها بمزيد من التفصيلء وكذلك البيانات التي تُنتجها. 


بيانات محرّكات البحث 


عام Yio‏ كان جوجل محرك البحث الأشهر على الإطلاق في جميع أنحاء العالم as‏ 
محرك بحث بينج التابع لشركة مايكروسوفت ومحرك بحث ياهو سيرش في المركرّين 
الثاني والثالثء على الترتيب. عام ۲٠۲۰ء‏ أحدث عام كانت فيه البيانات date‏ للجمهورء 
بلغ حجم عمليات البحث التي تُجرى على محرك بحث جوجل وحده ما يزيد عن 1,0 مليار 
عملية بحث Gog:‏ 

GL‏ على إدخال كلمة أساسية ما في محرك البحث عرض قائمة بالمواقع الإلكترونية 
الأكثر صلةء ولكنء في الوقت نفسه»ء and‏ كمية كبيرة من البيانات. يُنتج التعقب على شبكة 
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انفجار البيانات 


الويب بيانات ضخمة. وكتدريب على ذلك» بحثث عن «سلالة كلاب بوردر كولي»» ونقرت على 
الموقع الإلكترونى الأول في نتائج البحث. وباستخدام sal‏ برامج التعقب البسيطة؛ Saag‏ 
أنه جرى إنشاء روابط إلى حوالي 1۷ موقعًا آخر بمجرد النقر على هذا الموقع الإلكتروني. 
ومن Jol‏ تمق اهمامات: الأشخاصن الاين تصن حرا هذا الوق قهرئ :مشاركة cilaglall‏ 
على هذا gaill‏ بين الشركات التجارية. 

كلما eal‏ أحد igo‏ الضف Sh‏ سفت ings‏ جيل الؤاقم الوق 
بها التي زرناها. وتحتوي هذه السجلات على معلومات مفيدة على غرار الكلمة المستعلّم 
عنها نفسهاء وعنوان آي بي للجهاز الُستخدم» ووقت إرسال الاستعلام» والمدة التي قضيناها 
في كل موقع» وترتيب زيارتنا لهذه المواقع — كل ذلك من دون الكشف عن هُوياتنا. علاوة 
على ذلك» تسل «سجلات تدفق النقر» jLall‏ الذي سلكناه عند زيارتنا BEAL‏ المواقع 
الإلكترونية» وكذلك تصفحنا لكل موقع. عندما auai‏ شيكة الويب» jas‏ كل نقرة 
ننقرها في مكان ما لاستخدامها في المستقبل. البرامج المتوافرة للشركات تمگنها من جمع 
بيانات تدفق النقر التى تنتجها مواقعها الإلكترونية — saig‏ هذه أداة تسويق لا تقدّر 
امن عل سيل الال peas‏ أن aes cactus‏ كاين كلذل ها مه من اكات کن 
النظام - في اكتشاف الأنشطة الضارة مثل سرقة الهُوية. كما يمكن استخدام السجلات في 
قياس مدى فاعلية الدعاية عبر الإنترنت» وذلك بصفة أساسية عن طريق Se‏ مرات النقر 
على الإعلانات من قبل زائري الموقع الإلكتروني. 

من خلال تفعيل تحديد هوية العميل» تستخدّم ملفات تعريف الارتباط لإضفاء طابع 
بقعي Spall ayia elk E‏ الك EET‏ دمن sash‏ 
Jr tw‏ «ملف تعريف ارتباط»» وهو عبارة عن ملف نصي صغير يحتوي عادةً على مُعرّف 
bars pis ASI aiigall‏ السيدهيم» إل شهان اوو lal‏ إلا إذا حظرت استخدام 
ملفات تعريف الارتباط. وقي كل مرة تزور هذا الموقع الإلكتروني» يُرسل E‏ تعريف 
الارتباط رسالة إلى الموقع الإلكتروني» وبهذه الطريقة يظل يتعقب زياراتك. وكما سنرى 
3 لقصل السا دس ت اک ر PAIS‏ فن اة say‏ اق او 
تع تعقب تفضيلاتك. أو إضافة اسمك إلى الإعلانات المستهدفة. 

تنتج مواقع شبكات التواصل الاجتماعي LAÍ‏ كميات كبيرةً من البيانات» وفي هذا 
الصدد يأتي US‏ من فيسبوك وتويتر على رأس القائمة. بحلول منتصف عام ۲١٠١‏ 
بلغ sse‏ مستخدمي فيسبوكء في المتوسطء ٠,۷١‏ مليار مستخدم نشط bog‏ جميعهم 
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البيانات الضخمة 


يُنتجون بيانات» ما نتج dic‏ حوالي ١,5‏ بيتابايت (آو ٠٠٠١‏ تيرابايت) من بيانات سجلات 
الويب يوميًا. كان لموقع يوتيوب» موقع مشاركة مقاطع الفيديو الشهير, تأثيرٌ كبير منذ 
إطلاقه عام Yt O‏ ويزعم بيان صحفي حديث عن يوتيوب أن sue‏ مستخدميه قد تجاوز 
المليار مستخدم في جميع أنحاء العالم. يمكن استخدام البيانات القيّمة الناتجة عن محركات 
Saul‏ ومواقع شبكات التواصل الاجتماعي في Silas‏ أخرى BÈS‏ على سبيل «JEL‏ عند 
التعامل مع المشكلات الصحية. 


بيانات الرعاية الصحية 


إذا تناولنا الرعاية الصحيةء فسنجد أننا بصدد مجال يتضمّن نسبةٌ كبيرة ومتزايدة من 
سكان العالم وهو BAST‏ التحول إلى نظام الحوسبة. تتحوّل السجلات الصحية الإلكترونية 
تدريجيًا لتصبح النظام المعتمد في المستشفيات وعيادات الأطباءء والهدف الأساسي من ذلك 
هو تسهيل مشاركة بيانات المرضى مع مستشفيات وأطباء آخرين؛ ومن Ab‏ تيسير توفير 
رعاية صحية أفضل. يتزايد جمع البيانات الشخصية عبر أجهزة الاستشعار القابلة للارتداء 
أو الزرع؛ لا سيّما فيما يتعلق بالمتابعة اليه حي ابيع الكثير منا يستخدمون Bes‏ 
لمتابعة اللياقة البدنية الشخصية متباينة التعقيدء والتي تنتج المزيد من فئات البيانات. 
أصبح من الممكن الآن متابعة صحة المريض عن بُعدء By‏ الوقت الحقيقي من خلال جمع 
البيانات عن ضغط الدم» ومعدل النبض» ودرجة حرارة الجسم» الأمر الذي ريما يقال 
من تكاليف الرعاية الصحية ويحسّن من جودة الحياة. تزداد أجهزة المتابعة عن بُعد 
هذه bs‏ يومًا بعد يوم» وأصبحت الآن تتخطّى القياسات الأساسية لتشمل متابعة النوم 
ومُعدّل BS‏ تشبّع الشرايين بالأكسجين. 

eid‏ , بعض الشركات عوامل تحفيز لإقناع الموظفين باستخدام أجهزة اللياقة البدنية 
القابلة coli SU‏ وتحقيق أهداف معينة مثل خسارة الوزن أو السير لعدد محدّد من 
الخطوات كل يوم. وفي مقابل الحصول على الجهازء يوافق الموظف على مشاركة البيانات مع 
صاحب العمل. قد يبدو هذا الأمر Gibis‏ ولكن ستنشاً حتمًا مشكلاتٌ تتعلّق بالخصوصية 
لا بد من وضعها في الاعتبارء بالإضافة إلى الضغط غير المستحب الذي قد يشعر به البعض 
جراء الاشتراك في هذا النظام. 

أصبحنا نرى بصورة متزايدة VGA‏ أخرى من متابعة الموظفينء ai fie‏ حي 
أنشطة الموظفين على أجهزة الكمبيوتر والهواتف الذكية التي نرا الشركة وبا متام 
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انفجار البيانات 


برامج مخصّصة: يمكن أن تشمل هذه المتابعة JS‏ شيء» بدءًا من متابعة المواقع الإلكترونية 
التي يجري تصفحهاء ووصولًا إلى تسجيل suc‏ مرات الضغط على المفاتيح لكل موظفء 
A‏ كان العاصون AL eh‏ ملواقع EK‏ 
التواصل الاجتماعى. في pac‏ التسريبات الهائلة للبيانات» أصبح الأمان هاجسًا متزايد 
الأهميةء ومن 63 أصبح من الضروري حماية البيانات المؤسسية. وفي النهاية» فإن مراقبة 
رسائل البريد الإلكتروني وتتبّع المواقع الإلكترونية التي جرت زيارتها مجرد طريقتين للحد 
E‏ لدان cal‏ : 

رأينا بالفعل أنه يمكن استخراج البيانات الصحية الشخصية من أجهزة الاستشعارء 
he‏ أجهزة متابعة اللياقة البدنية أو أجهزة متابعة الحالة الصحية. ولكنء الكثير من 
البيانات التى تجمع من أجهزة الاستشعار هذه jaded‏ لأغراض طبية عالية التخصص. 
إن بعضًا من أكبر مخازن البيانات الموجودة يجري إنشاؤه بالتزامن مع دراسة الباحثين 
لجينات العديد من الأنواع وتسلسل الجينوم لديها. شرحت بنية جزيء الحمض النووي 
(دي إن )43( الذي يشتهر باحتواته على التعليمات الوراثية اللازمة لحياة الكائنات الحيةء 
للمرة الأولى بوصفه حلزونًا مزدوجًا من قبل جيمس واتسون وفرانسيس كريك عام NA OY‏ 
كان مشروع الجينوم البشري الدولي أحد أكثر المشروعات البحثية انتشارًا في السنوات 
الأخيرةء Gilly‏ يحدّد التسلسلء أو الترتيب الدقيق» لثلاثة مليارات زوج من القواعد التي 
يتكوّن منها الحمض النووي البشري. وفي نهاية المطاف» تساعد هذه البيانات الفرق 
البحثية في دراسة الأمراض الوراثية. 


البيانات ف الوقت الحقيقى 


تَجمَّع بعض البيانات» allay‏ وتُستخدم في الوقت الحقيقى. سمحت زيادة قوة المعالجة 
الحاسوبية بزيادة القدرة على معالجة هذه البيانات وإنتاجها بسرعة. يحمل زمن الاستجابة 
في هذه الأنظمة أهميةٌ كبيرة؛ ومن ثمَّ يجب معالجة البيانات بصورة آنية. على سبيل JEM‏ 
يستخدم نظام تحديد المواقع العالمي (جي بي إس) نظامًا من الأقمار الصناعية لمسح 
الأرض وإرسال كميات هائلة من البيانات في الوقت الحقيقي. ومن ثم glai‏ أجهزة 
استقبال نظام تحديد المواقع العالمي» والتي قد تكون في سيارتك أو هاتفك الذكي («ذكي» 
Glee of Ul nt bo‏ ماءهاتفا ن هذه الحالة: له القدرة Jo‏ الوضول إل CARYN Sad‏ 


NA 


البيانات الضخمة 


وتقديم عدد من الخدمات أو التطبيقات التي يمكن ربطها (Les‏ إشارات الأقمار الصناعية 
هذه وتحسب موقعكء وتوقيتك» وسرعتك. 

أصبحت هذه التكنولوجيا مُستخدمة الآن في تطوير السيارات التي من دون سائق أو 
LorgliSill olay Sula! Lol‏ مُستخدمة بالفعل ف مناطق محدية ومتخصطية he‏ 
المصانع والمزارع» وتطوّرت على يد عدد من كبار الْمصنّعينء بما في ذلك شركات فولفوء 
وتسلاء ونيسان. أجهزة الاستشعار وبرامج الكمبيوتر المشاركة في هذه التكنولوجيا تعمل 
على معالجة البيانات في الوقت الحقيقي» حتى توجّه السيارة بصورة يُعتمد عليها إلى 
وجهتك» وتتحكّم في حركتها بالنسبة إلى مستخدمي الطريق الآخرين. يتطلَّب هذا رسمًا 
مسبقًا لخرائط ثلاثية الأيعاد للطرق لاستخدامها؛ لأن أجهزة الاستشعار لا يمكنها التعامل 

مع الطرق غير الظاهرة على الخرائط. تُستخدم أجهزة الاستشعار الرادارية لمتابعة حركة 

المرور للسيارات الآخرى» وترسل البيانات إلى كمبيوتر تنفيذي مركزي خارجي يتحكّم في 
السيارة. ويجب برمجة أجهزة الاستشعار على رصد الأشكال والتمييز» على سبيل المثالء 
بين طفل يعدو Gale‏ الطريق وجريدة تطبر fone‏ أو رصدء مقلا مخطط لط ارف 
حالات الطوارئ بعد وقوع حادث. Sly‏ هذه السيارات لا يمكنها بعد الاستجابة بالشكل 
المناسب لجميع المشكلات التى تفرضها البيئة الدائمة التغيّر المحيطة بها. 

وفع كادف Awa N‏ الدى E RUAN Aah Splat ASS‏ 
عندما لم as‏ السائق البشري أو JW‏ استجابةٌ تجاه اعتراض سيارة أخرى Garb‏ هذه 
الشيارة بمغتى أن OF‏ مدهها لم يضتفظ عل مكايح السيارة استجابة eM‏ أشارت شرعة 
تسلاء المصنّعة للسيارة الذاتية القيادةء في خبر صحفى في يونيو عام ۲١٠٠١‏ إلى «الملابسات 
الشديدة الندرة التي أحاطت بحادث التصادم». as‏ نظام القيادة الآلية السائقين إلى أن 
يُبقوا أيديهم على مقود السيارة طوال الوقت» بل إنه giai‏ حتى من أنهم يفعلون ذلك. 
صرّحت شركة تسلا ob‏ هذا الحادث هو Sule‏ التصادم المميت الأول الذي يقع بسبب 
نظام القيادة الآلية لديها خلال ١٠١‏ مليون ميل من القيادةء مقارنةٌ بحادث مميت واحد 
AE US‏ مليون ميل uss‏ فيه القيادة العادية غير الآلية في الولايات المتحدة. 

تشير التقديرات إلى أن كل سيارة ذاتية القيادة ستنتج في المتوسط ١‏ "تيرابايت من 
البيانات bags‏ ويجب معالجة الكثير منها في الوقت الحقيقي تقريبًا. يأمل Shee‏ بحثي 
جديدء Éd‏ «تحليلات تدفق البيانات»» وهو hai‏ الطرق التقليدية للإحصاء ومعالجة 
البيانات» في تقديمه dbus‏ لحل هذه المشكلة المتعلّقة بالبيانات الضخمة تحديدًا. 


انفجار البيانات 
البيانات الفلكية 


في شهر أبريل VE‏ 45 تقرير أعدّته مؤسسة البيانات الدولية أنه بحلول عام ١٠٠٠ء‏ 
سيصل حجم الكون الرقمي إلى 55 تريليون جيجابايت (الجيجابايت الواحد يساوي 
۰۰۰ ميجابايت)؛ أي ٠١ hye‏ أضعاف daaa‏ عام Y- AY‏ ثمة كم متزايدٌ من البيانات 
تنتجه التلسكويات. على سبيل JI‏ التلسكوب الكبير Bide‏ تشيلي» وهو عبارة عن 
تلسكوب ضوئي يتكوّن led‏ من أربعة تلسكوبات» ينتج US‏ منها ES‏ هائلًا من البيانات 
— 0 ١تيرايايت AL! IS‏ وهذا as‏ البيانات الإجمالي في الليلة الواحدة. يعد هذا التلسكوب 
حجر الأساس لمشروع المسح الشامل الكبير» وهو مشروع يمتد لعشر سنوات QA‏ بصورة 
متكرّرة خرائط لسماء الليلء ويُّقدّر أنه سيّنتج إجمالي ٠١‏ بيتابايت (الأصوات المعطاة لكل 
صفحة (cule Y‏ من البيانات. 

يوجد تلسكوبٌ أكبر من حيث إنتاج البيانات» وهو التلسكوب الراديوي «مصفوفة 
الكيلومتر المربع باثفيندر» الذي أنشئ في أستراليا وجنوب أفريقياء وبدأ العمل به عام 
6 أنتج هذا التلسكوب ١‏ ١تيرابايت‏ من البيانات الخام JS‏ ثانية في بداية dhe‏ 
وازداد هذا الكمّ مع اكتمال مراحله التالية. لن OSAS‏ جميع هذه البيانات» ولكن ستطراً 
الحاجة إلى أجهزة كمبيوتر خارقة في جميع أنحاء العالم لتحليل البيانات المتبقية. 


3 Bie ee So te 
فيم تستخدّم كل هذه البيانات؟‎ 


من المستحيل تقريبًا في العصر الحالي أن يشارك المرء في ARS‏ اليومية hates‏ ما pis‏ 
من جمع لبياناته الشخصية إلكترونيًا. طاولات الدفع في المتاجر تجمع بيانات Loe‏ نشتريهء 
وشركات الطيران تجمع معلومات عن ترتيبات أسفارنا عندما نشتري تذكرة؛ والبنوك 
تجمع بياناتنا المالية. 

تمتخ البياتات"الشيخمة عل ES. gas‏ ف Lat‏ والظلت» (gly‏ تطزيقات فى 
القانون» ales‏ الاجتماع» والتسويق» والصحة العامة» وجميع فروع العلوم الطبيعية. 
للبيانات» بجميع صورهاء القدرة على تقديم ثروة من المعلومات المفيدة إذا ما LÉS‏ 
من ابتكار طرق لاستخراج تلك المعلومات. إن الأساليب الجديدة التي تمزج بين طرق 
الإحصاء التقليدية وعلوم الكمبيوتر تزيد من إمكانية التطبيق العملي لتحليل مجموعات 
البيانات الضخمة. طُوّرَت هذه الأساليب والخوارزميات على أيدي إحصائيين وعلماء 


۲١ 


البيانات الضخمة 


كمبيوتر يبحثون عن أنماط متكرّرة في البيانات. siig‏ تحديد الأنماط المهمة élis‏ نجاح 
عمليات تحليل البيانات الضخمة. كما أن التغيرات التي جلبها العصر الرقمي غبّرت إلى Se‏ 
كبير طرق جمع البيانات» وتخزينهاء وتحليلها. ومنحتنا ثورة البيانات الضخمة السيارات 
الذكية وأجهزة المراقبة المنزلية. 

نتج عن القدرة على جمع البيانات إلكترونيًا ظهور مجال ple‏ البيانات المثيرء الذي 
يجمع بين fla‏ الإحصاء وعلوم الكمبيوتر؛ من أجل تحليل هذه الكميات الكبيرة من 
البيانات لاكتشاف معارف جديدة في مجالات التطبيق المتعدّدة الاختصاصات. إِنَّ الهدف 
المطلق للعمل على البيانات الضخمة هو استخراج المعلومات المفيدة. وأصبح اتخاذ القرارات 
في الشركات يعتمد على نحو متزايد على المعلومات المستخرّجة من البيانات الضخمة» ومن 
E‏ ةاد AST [gale slated‏ 4 الل ولك Glow VBS CNS tie Led‏ عل 
قلة sse‏ علماء البيانات gu Sal‏ القادرين على تطوير الأنظمة اللازمة لاستخراج المعلومات 
المرغوبة وإدارتها على نحو SLES‏ 

من خلال الاستعانة بطرق جديدة مستقاة من ale‏ الإحصاء وعلوم الكمبيوترء والذكاء 
الاصطناعيء يجري OI‏ تصميم خوارزميات تقدّم أفكارًا وتطويرات Buse‏ في مجال 
Gace ge apple‏ لقال fe‏ "اراقع جو نه کی ترك dala INWegss Gy‏ فا 
Ise‏ متزايدًا من المؤسسات تستخدم البيانات الْمجمّعة بواسطة الأقمار الصناعية وأجهزة 
الاستشعار الأرضية لمراقبة النشاط الزلزالي. والهدف من ذلك هو تحديد المكان التقريبي 
الذي من «المرجّح» أن يشهد حدوث زلازل كبيرة على gall‏ الطويل. على سبيل JAU‏ قدرت 
هيئة المسح الجيولوجى الأمريكيةء إحدى كبار المساهمين في أبحاث الزلازل» عام 5١١7‏ أن 
«ثمة احتمالية قدرها BUG ۷١‏ أن زلزالا GL‏ سبع درجات سيحدث في غضون OSH‏ 
Gle‏ القادمة في شمال كاليفورنيا». تساعد مثل هذه الاحتمالات في تكريس الموارد لوضع 
إجراءات» على غرار تحسين قدرة SLU‏ على aad‏ الزلازل» ووضع برامج لإدارة الكوارث 
اغالا sho‏ الت ممل ada!‏ من cols pill‏ القاملة ف هه Call‏ ومخالات sigs)‏ 
على البيانات الضخمة لتقديم أساليب تنو مُحسّنة, لم تكن متوافرةً قبل ظهور البيانات 
الضخمة. ومن ثم أصبحنا بحاجة إلى إلقاء نظرة على ما يميّز البيانات الضخمة. 


YY 


الفصل الثاني 


ماذا البيانات الضخمة مميّزة؟ 


لم Lass‏ البيانات الضخمة من العَدّم؛ فهي وثيقة الصلة بتطور تكنولوجيا الكمبيوتر. 
sil‏ معدل النمو السريع للقدرات الحاسوبية وسعات التخزين إلى جمع كميات أكبر من 
البيانات مع الوقت» ويغض النظر عمَّن كان أول G2‏ صاغ مصطلح «البيانات الضخمة»» 
فإن الأمر كان يتعلّق في البداية بالحجم فقط. ولكنء لا يمكن أن i‏ تعريف البيانات 
الضخمة على عدد البيتابايت» أو حتى الإكسابايت» التي OSa ÉÉ‏ ومع ذلك» فإن 
إحدى الوسائل المفيدة للحديث عن «البيانات الضخمة»» الناتجة عن انفجار البيانات» 
يقدّمها مصطلح «البيانات الصغيرة»» Gly‏ كان هذا المصطلح غير شائع الاستخدام بين 
جموع الإحصائيين. ولا شك أن مجموعات البيانات الضخمة كبيرة ومعقدةء ولكن» لكى 
نتوصّل إلى تعريف Gale del‏ أو أن نتعرّف على «البيانات الصغيرة» ودورها في التحليل 
الإحصائي. 


البيانات الضخمة فى مقابل البيانات الصغيرة 


عام NANA‏ وصل رونالد فيشرء الذي أصبح يشتهر الآن بكونه مؤسّس ale‏ الإحصاء 
الحديث بوصفه منهجًا أكاديميًا diss‏ إلى محطة روتهامستد التجريبية الزراعية في 
ا Sunil!‏ ليق ل als Galas dage‏ الماصيل ated duel GN‏ ااا oe‏ 
Gla‏ الات الكلاسيكية eu yal i‏ في روتهامستد منذ أربعينيات القرن التاسع 
alld db Lay ephe‏ و nail!‏ الشدوي والشتعير «eases!‏ وينانات so SI‏ الجوية 
من المحطة الميدانية. أطلق فيشر مشروع «برودبالك» الذي درس تأثيرات الأسمدة المختلفة 
على القمح, ولا يزال هذا المشروع bola‏ حتى الآن. 


البيانات الضخمة 


حالما أدرك فيشر الحالة الفوضوية التى كانت gale‏ البيانات» اشتهر عنه أنه وصفّ 
تحقة الأول Gags hay Galatea alta,‏ ال و من كلدل Salsa‏ ادمع 
لنتائج التجارب التى كانت dues‏ بعناية في Sls‏ ملاحظات ذات أغلفة جلدية» تمكّن 
فيك مق Ue apd‏ قحدية ااه كاو :قيس بحل و SGI‏ عص الو :فيل 
ظهور التكنولوجيا الحاسوبية المعاصرةء ولم يساعده إلا آلة حاسبة ميكانيكية في إجراء 
الحسابات» بشكل صحيح رغم ذلكء على البيانات المتراكمة على مدار Lele Ve‏ كانت 
هذه UW‏ الحاسبةء المعروفة باسم «المليونير»» والتى كانت تعتمد في عملها على عملية 
زين cya gla BLE‏ في sual‏ اإكارات ذلك tral!‏ فقن كافك الآلة الكاسية 
الأولى المتاحة تجاريًا التى يكن استخدامها لإجراء عملية الضرب. كان عمل فيشر ale‏ 
بالحسابات» ولعبت الآلة الحاسبة «المليونير» دورًا Lage‏ في تمكينه من shal‏ العمليات 
الحسابية الكثيرة التي يمكن لأي كمبيوتر حديث إجراؤها في غضون ثوان. 

على الرغم من أن فيشر رتب الكثير من البيانات وحلّلهاء فإنها لا تعد ÉS‏ كبيرة 
بالمفهوم المعاصرء وممًا لا شك فيه أنها لا تّعَد «بيانات ضخمة». كان جوهر عمل فيشر 
هو استخدام تجارب محدّدة بدقة Gales‏ بعناية» ومُصمّمة لإنتاج عينات ably‏ عالية 
التنظيم وغير متحيّزة. كان أسلوب العمل هذا ضروريًا؛ لأنه لم يكن من الممكن تطبيق 
الأساليب الإحصائية التي توافرت في ذلك الوقت إلا على البيانات الهيكلية. ولا شك أن 
هذه alla‏ الف ل فول تمن حك اسان كليل aeea‏ النيانات البيكية 
الصغيرة. ولكنء لا يمكن تطبيق هذه الأساليب على كميات البيانات الكبيرة Se‏ التى 
ae‏ قالارين هن gall Nga ell‏ هال GAS ge‏ من الاي Tate PQs Mi‏ الاه 
لنا. 


تعريف البيانات danill‏ 


في العصر الرقمي» لم نعد نعتمد بالكامل على العينات؛ وذلك LÄ‏ أصبحنا قادرين 
على جمع كل البيانات التي نحتاجها عن شعوب بأكملها. إلا أن حجم هذه المجموعات 
من البيانات التي تزداد YL‏ يمكنه بمفرده أن pda‏ تعريفا لمصطلح «البيانات 
الضخمة»» فعلينا أن go‏ «التعقيد» GIB‏ من تعريفاتها. وبدلًا من العينات Bball‏ بعناية 
من «البيانات الصغيرة»» أصبحنا نتعامل الآن مع كميات هائلة من البيانات التى لم تَجِمّع 
للإجابة عن أي أسظة مطروحةء والتي تكون غير هيكلية عادة. من أجل توصيف السمات 


yé 


لماذا البيانات الضخمة مميّزة؟ 


الرئيسية التى تجعل البيانات ضخمة: والاقتراب من وضع تعريف للمصطلح» اقترح دوج 
لانىء في مقال كتبه عام )++ استخدام خصائص البيانات الضخمة الثلاث: الحجم» 
والتنوع» والسرعة. ويتناول كل عنصر من هذه العناصر على Bas‏ يمكننا تكوين فكرة 
أفضل Loc‏ يعنيه مصطلح «البيانات الضخمة». 


الحجم 


يشير «الحجم» إلى كم البيانات الإلكترونية التي oiis gaai‏ في الوقت الحاليء والذي 
مدق يك ل مق ايدب Stall‏ الخ خبخمة E‏ و ta‏ مع امیا كن يكين 
من السهل تحديد حجم معين Lal‏ تعنيه كلمة «ضخمة» في هذا السياق» ولكنء ما كان يعد 
«ضخماء في الماضيء لم يعد ضخمًا بمعايير العصر الحالي. أصبح الحصول على البيانات 
يتزايد بمعدل ترتفع معه وتيرة التقادم الحتمي GY‏ حد نختاره. عام V+ VY‏ أعلنت AS pb‏ 
آي بي al‏ وجامعة أكسفورد عن نتائج pals‏ رأي عن عمل البيانات الضخمة. في هذا 
الاستطلاع الدولي الذي شارك فيه Latia ١١44‏ يعملون في 45 Uys‏ مخظفة؛ قال AST‏ 
من نصفهم إن مجموعات البيانات التي يتراوح حجمها ما بين ١تيرابايت‏ وابيتابايت 
تعد ضخمةء بينما sla‏ حوالي ثلث المشاركين في فتة «لا أعلم». طلب الاستطلاعٌ من 
المشاركين أن يختاروا Zeus‏ أو اثنتّين من السمات المميّزة للبيانات الضخمة من بين ثمانى 
لمات ١ ag‏ بالاكة فف فن EE‏ لبس SSNs‏ الغبيرة للبيانات» 
في حين كانت السمة الأكثر اختيارًا هي «نطاق أكبر من المعلومات»» والتي اجتذبت نسبة 
GAS aul) Ge SCAN a RUA‏ لعدم ISN‏ خو بح معن مداه ل اه 
فقطء هو أن ثمة عوامل أخرى» مثل سعة التخزين ونوع البيانات التي تُجمع؛ BE‏ 
بمرور الزمن» ASis‏ على إدراكنا للحجم. ولا شك أن بعض مجموعات البيانات ضخمة 
للغاية بالفعلء ومن بينهاء على سبيل المثال لا الحصرء مجموعات البيانات الناتجة عن 
مصادم الهدرونات الكبير في مختبر سرنء وهو مسارع الجسيمات الأول في العالم» والذي 
بدأ ahe‏ عام YA‏ حتى بعد استخراج نسبة واحد GUL‏ فقط من إجمالي البيانات 
المنتّجة سيظل لدى العلماء ١٠بيتابايت‏ من البيانات ليعملوا على معالجتها سنويًا. بوجه 
le‏ يمكننا القول إن معيار الحجم يمكن تلبيته إذا كانت مجموعة البيانات لا يمكن 
جمعهاء وتخزينهاء وتحليلها باستخدام أساليب الحوسبة والإحصاء التقليدية. تعد بيانات 
الاستشعارء مثل تلك الناتجة عن مصادم الهدرونات الكبيرء نوعًا Maly‏ من البيانات 
الضخمة؛ ولذا byes‏ نتناول بعضًا من الأنواع الأخرى. 
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esa 


على الرغم من أنك قد ترى مصطلحي «الإنترنت» و«شبكة الإنترنت العالمية» يُستخدمان 
Bule‏ على نحو Julie‏ فإنهما في الحقيقة مختلفان تمامًا. الإنترنت عبارة عن شبكة من 
الشبكات» تتكوّن من أجهزة كمبيوترء وشبكات كمبيوتر» وشبكات مناطق محليةء وأقمار 
صناعيةء وهواتف خلوية» وغيرها من الأجهزة الإلكترونيةء جميعها متصلة Lae‏ وقادرة 
على إرسال جرم من البيانات فيما بينهاء ويّمكنها فعل ذلك باستخدام عنوان آي بي 
(بروتوكول الإنترنت). Ll‏ شبكة الإنترنت العالمية www)‏ أو الويب)» فيصفها مخترعها 
تي جيه بيرنرز لي بأنها «نظام معلومات عالمي» iul‏ الاتصال بشبكة الإنترنت ليتمگن 
dS‏ من يملك Slee‏ كمبيوتر واتصالًا بالإنترنت من التواصل مع مستخدمين آخرين عبر 
وسائط على غرار البريد الإلكتروني» والرسائل الفورية» وشبكات التواصل الاجتماعي» 
والرسائل النصية. ويمكن للمشتركين مع أحد مزوّدي خدمات الإنترنت الاتصال بشبكة 
الإنترنت؛ ومن ab‏ الوصول إلى الويب والكثير من الخدمات الأخرى. 
بمجرد اتصالنا بالويب» يصبح لدينا وصول إلى مجموعة غير منظمة من البيانات» 
من مصادر موثوقة ومشبوهةء تكون عُرضةً للتكرار والخطأ. وهذا بعيد كل sail‏ عن 
البيانات المرتبة الدقيقة التي تتطلبها أساليب الإحصاء التقليدية. على الرغم من أن البيانات 
intel‏ من الويب يمكن أن تكون dae‏ أو غير هيكليةء أو شبه هيكلية؛ ما ينتج 
عنه تنوع كبير (مثل مستندات معالجة النصوص أو OR‏ مواقع شبكات التواصل 
الاجتماعي غير الهيكلية؛ وجداول البيانات شبه الهيكلية)ء فإن أغلب البيانات الضخمة 
المستقاة من الويب تكون غير هيكلية. ينشر مستخدمى تويتر, على سبيل JON‏ حوالي 
٠‏ مليون رسالة مكوّنة من ١6١‏ حرفا كحدٌ أقصى؛ أو «تغريدة»» كل يوم على مستوى 
العالم. تحمل هذه الرسائل القصيرة قيمةٌ تجارية عالية» Gilig‏ ما fied‏ حسب إذا ما 
كانت المشاعر sll‏ عنها dula‏ أم سلبيةء أم محايدة. هذا المجال الجديد لتحليل 
المشاعر lbs,‏ أساليب مطوَّرةً بأسلوب خاصء وهو شيءٌ لا يمكن أن نؤديه بفاعلية إلا 
باستخدام تحليلات البيانات الضخمة. على الرغم من التنؤع الكبير للبيانات التى تجمعها 
المستشفيات: والجيش» والكثير من الشركات التجارية لأفراض Ble‏ فإنه يمكن تضنيفها 
جميعها في نهاية المطاف بأنها هيكليةء أو غير هيكليةء أو شبه هيكلية. 
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لماذا البيانات الضخمة مميّزة؟ 
السرعة 
تتدفّق البيانات في العصر الحالي باستمرار من مصادر على غرار الويب» والهواتف الذكية, 
وأجهزة الاستشعار. de pully‏ ترتبط Leis‏ بالحجم؛ كلما زادت سرعة إنتاج البيانات» زادت 
كميتها. على سبيل JEU‏ تنتقل الرسائلء التى أصبحت «تنتشر de pus‏ على شبكات 
التواصل الاجتماعي بطريقة تجعل لها تأثير 38 الثلج؛ Gad pial‏ على إحدى شبكات 
التواصل الاجتماعيء ويراه أصدقائيء ويشاركه US‏ منهم مع أصدقائه» وهكذا. وتنتشر 
هذه الرسائل في جميع أنحاء العالم بسرعة كبيرة للغاية. 
شير السرعة أيضًا إلى السرعة التي تُعالّج بها البيانات إلكترونيًا. على سبيل المثالء 
من الضروري أن تنتج بيانات الاستشعارء على غرار البيانات الناتجة عن السيارات الذاتية 
القيادةء في الوقت الحقيقي. فمن أجل أن تعمل السيارة بكفاءة» يجب أن ÉS‏ البياناتء 
التي Lai‏ لا سلكيًا إلى موقع مركزيء بسرعة كبيرة للغاية حتى Say‏ إرسال التعليمات 
الضرورية مرة أخرى إلى السيارة على نحو آن. 
يمكن اعتبار التباين (aes‏ إضافيًا ا السرعة؛ فهى يشير إلى معدلات التغيّر في 
تدفق البيانات» مثل الزيادة الكبيرة في تدفق البيانات خلال أوقات الذروة. ويُعد هذا التُعد 
هيما pepo SE A‏ اک عا اک عرض لفطل 


الموثوقية 

بالإضافة إلى العناصر BW‏ التي اقترحها لانيء يمكننا إضافة «الموثوقية» بوصفها 
العنصر الرابع. وتشير الموثوقية إلى جودة البيانات الجاري جمعها. كانت البيانات الدقيقة 
والموثوقة هي السمة المميّزة للتحليل الإحصائي خلال القرن الماضي. os‏ فيشر وغيره 
يَتُوقون إلى ابتكار أساليب تتضمّن Daia‏ المفهومَينء إلا أن البيانات التي تنتج في العصر 
الرقمي Sale‏ ما تكون غير هيكلية» وعادةً ما ghai‏ دون تصميم تجريبيء of‏ بالتأكيدء 
دون أي فكرة عن الأسئلة التي قد تكون محور الاهتمام. ولكننا نسعى إلى الحصول 
على معلومات من هذا المزيج. لنتناوّل مثالا على ذلك البيانات التي تُنتجها مواقع شبكات 
التواصل الاجتماعي. هذه البياناتء بطبيعتهاء ليست دقيقةء أو موثوقة؛ وعادةً لا تكون 
المعلومات المنشورة صحيحة. كيف نثق إذن في أن البيانات تعطي نتائج old‏ معنّى؟ 
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البيانات الضخمة 


isa‏ أن ucla,‏ الك lai‏ عن هذه issih UGH; Lathe «ASS‏ الال كفده 
وصف ثيوسيديدز استعانة القوات البلاتية بأكبر عدد ممكن من الجنود Ía‏ الطوب من 
أجل زيادة أرجحية تخمين الارتفاع الصحيح (التقريبي) للجدار الذي رغبوا في تسلّقه. 
ولكن» علينا أن نكون أكثر djia‏ حيث نعلم من النظرية الإحصائية أن زيادة الحجم 
يمكن أن 6453 إلى نتائج عكسية؛ وذلك لأنه حتى في JB‏ وجود كمية كافية من بياناتء 

يمكننا العثور على عددٍ كبير من العلاقات الزائفة. 


التمثيل المرئي والخصائص الأخرى 


ظهر العديد من خصائص البيانات الضخمة الأخرى التي تنافست فيما بينها BLAU‏ إلى 
خصائص البيانات الضخمة الثلاث الأصلية التي اقترحها لاني أو تحل محلهاء مثل «قابلية 
التعرُض للخطر» و«قابلية التطبيق»» ولعل pal‏ هذه الخصائص الإضافية «القيمة» 
و«التمثيل المرئي». تشير القيمة بوجه عام إلى جودة النتائج المستخرجة من تحليل 
البيانات الضخمة. كما أنها تستخدّم لوصف عمليات بيع البيانات من قبل الشركات 
التجارية إلى الشركات التي تتولى معالجتها باستخدام أساليب التحليل لديها؛ ومن ثم 
فالقيمة مصطلحٌ شائع الاستخدام في مجال الأعمال القائمة على البيانات. 

لا يعد التمثيل المرئي أحد الخصائص Sieh!‏ للبيانات الضخمة: ولكنه age‏ فيما 
gais‏ عرض النتائج التحليلية والتعريف بها. زاد تطوّر الشكل المألوف للمخططات 
الدائرية الثابتة ورسوم التمثيل البيانى بالأعمدةء التى ساعدتنا في فهم مجموعات البيانات 
الصغيرةء لمساعدتنا في EE‏ ا و » إلا أن إمكانية Medes J‏ محدودة. على 
سبيل المثال pái‏ المخططات البيانية للمعلومات عرضًا أكثر تعقيدًاء ولكنها مخططات 
Legg SUL‏ أن البيانات الضخمة يُضاف إليها المزيد باستمزان..فإن daif‏ التمثيلات 
المرتية لها تكون تفاعلية مع المستخدم ويحدَّثها منشنّها بصفة منتظمة. على سبيل 
JÈL‏ عندما نستخدم نظام تحديد المواقع العالمي (جي بي إس) لتخطيط مسار رحلة 
بالسيارة» فإننا نتعامل مع SÄS‏ رسومية تفاعلية إلى de‏ كبير» بناءً على البيانات 
ilal‏ من الأقمار الصناعية: لتتبع موقعنا. 

$a‏ هذه الخصائص الأربع الرئيسية للبيانات الضخمة مجتمعة؛ الحجم» والتنوّع: 
de pally‏ والموثوقية, Goad‏ كبيرًا فيما يتعلّق بإدارة البيانات. ويمكن فهم المميزات التي 
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توق الحضول ليها من مواكة ode‏ التحديات AY,‏ التي Job‏ فى gic Gayl‏ 


التنقيب ف البيانات الضخمة 


«البيانات هي النفط الجديد»» عبارة أصبحت متداولة على نطاق واسع بين ISo‏ الصناعة, 
والتجارة» والسياسةء aig‏ عادةً إلى ANS‏ همبيء مُبتكر بطاقة ولاء عملاء تيسكوء 
عام V+‏ وهي عبارة Dike‏ تشير إلى أن البيانات» على غرار النفطء ذات قيمة كبيرة 
الغابة ولكن يجن Sil Gaels‏ كمدق خذهالقيمة فوفك هذه sll‏ ةن 
الأساس كحيلة تسويقية استخدمها مزوؤدو خدمات تحليل البيانات على أمل أن يتمكّنوا 
من بيع منتجاتهم عن طريق إقناع الشركات بأن البيانات الضخمة هي المستقبل. وقد 
تكوق كلك اف وک الف هوه" اهار فا Be‏ ا کا فو أن 
تحصل على النفطء تكون لديك سلعة قابلة للتسويق. ولكنء لا ينطبق ذلك على البيانات 
الضخمةء فإنك لن نتج Gl‏ شيء ذي قيمة إلا إذا امتلكّت البيانات المناسبة. ÉS‏ الملكية 

à‏ مشكلة؛ Biy‏ الخو ل كن عن ا مد SONS)‏ جوون 
ر و امد لهذة الاأشهارة N‏ ن PENA EE‏ 
هو مهمة gl Atul‏ معلومات مفيدة وقيمة من مجموعات البيانات الهائلة الحجم. 

باستخدام طريققي التنقيب في البيانات وتعلّم الآلةء وكذلك الخوارزميات» لن يكون 
هن Glass! goal!‏ الأتماط غ of satel!‏ الخالات غير الألوفة ن Ebb!‏ :قحسي يل 
سيكون من الممكن أيضًا توقعها. وللحصول على هذا النوع من المعرفة من مجموعات 
اكات اة قن ك كدلم Btls QI‏ أو وى اكرات أ AUN‏ اة 
el ean,‏ تملك SEIS‏ الاسراف ها Wa Sarl‏ ا اد على aA‏ 
لدى البشر. باستخدام بيانات التدريب» حيث تكون الأمثلة الصحيحة موسومةٌ أو مميّزة: 
ينشئ برنامج كمبيوتر ما scli‏ أو خوارزمية لتصنيف أمثلة جديدة. وتفحَص هذه 
الخو GAR Ye LAY eile pludtusls inj‏ من ذلك اسحفدم كوا رميات التعلّم 
دون إشراف بيانات disse‏ غير موسومة ومن دون تحديد هدف معين؛ فهى مصمّمة 
لاستكشاف البيانات واكتشاف الأنماط الخفية. 

وكمثال على ذلك» دعونا نتناول GAS‏ الاحتيال المرتبط ببطاقات الائتمان» ونرى 
كيف تستخدم كل طريقة. 
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البيانات الضخمة 
كشف الاحتيال في استخدام بطاقات الائتمان 


JAS‏ الكثير من الجهود لاكتشاف الاحتيال في استخدام بطاقات الائتمان والحيلولة دون 
حدوثه. إذا كنت تعس Ball‏ ووصلتكَ مكالمة من مكتب كشف احتيال بطاقات الائتمان 
ail‏ لها قد MOR‏ عرفت اذكه القران tits slau‏ شرك Bee‏ 
الاتتمانية من المحتمل أن تكون ضريًا من الاحتيال. بالنظر إلى العدد الهائل للمعاملات 
التي تتم باستخدام بطاقات الائتمانء لم يعد من المناسب أن يتول البشر فحص هذه 
العمليات باستخدام طرق تحليل البيانات التقليدية؛ ومن ad‏ أصبحت أدوات تحليل 
البيانات الضخمة على نحو متزايد ضرورة لا غنى عنها. إن عزوف المؤسسات المالية عن 
مشاركة تفاصيل أساليبها للكشف عن الاحتيال ببطاقات الائتمان Sal‏ مفهوم؛ حيث إن 
ذلك سيمنح المجرمين الإلكترونيين المعلومات التي يحتاجونها لابتكار طرق للتحايل عليها. 
ولكن» يمكن أن نحصل على فكرة جيدة عن هذا الموضوع دون الخوض في تفاصيله 
الكاملة. 

ثمة العديد من السيناريوهات المحتملة» ولكننا سنتناول الخدمات المصرفية الشخصية 
وسنستعرض حالات سرقة بطاقات الائتمان واستخدامها مع معلومات أخرى مسروقة, 
مثل رقم التعريف الشخصي للبطاقة (بي آي إن). في هذه الحالة» قد تُظهر البطاقة Sal‏ 
مفاجئة في الإنفاق» وهي عملية احتيال من السهل اكتشافها بواسطة الجهة المصدرة 
للبطاقة. ols! clei Go‏ يستخدم المحتال البطاقة المسروقة للمرة الأولى في إجراء 
«معاملة تجريبية» حيث يشتري Éd‏ غير Bab‏ الثمن. وإن لم 3 هذه المعاملة أي 
إنذارات» يبدأ في الاستيلاء على مبالغ أكبر. قد تنطوي هذه المعاملات على احتيال وقد لا 
تنطوي؛ فريما اشترى صاحب البطاقة nd‏ خارج ha‏ مشترياته المعتادء أو ربما أنفق 
فعلًا الكثير من المال خلال هذا الشهر. كيف نكتشف إذن المعاملات التي تنطوي على 
احتيال؟ دعونا نتناول Galal Spf‏ دون إشراف يُدعى «التجميع»» وكيف يمكن استخدامه 
في مثل هذا الموقف. 


التجميع 
sly‏ على خوارزميات الذكاء الاصطناعى» يمكن استخدام أساليب التجميع في اكتشاف 
التضارب أو الانحراف في سلوكيات العملاء الشرائية. diiy‏ ذلك عن Bb‏ البحث في 
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بيانات المعاملات بغرض اكتشاف أي شيءٍ غير معتاد أو مشتبه Gilly dad‏ ربما يكون 
راس التمتيال ألا یکین 

تجمع شركات بطاقات الائتمان Gus LS‏ من البيانات وتستخدمه في إنشاء ملفات 
بيانات تعرض سلوكيات الشراء لدی عملائها. ومن ثم shad‏ مجموعاتٌ من ملفات 
البيانات ذات الخصائص Lay ASW) BLL‏ بواسطة برنامج كمبيوتر «تكراري» (أي 
يُكرّر عملية ما حتى يصل إلى نتيجة معينة). على سبيل المثال» قد ثحدّد مجموعة 
للحسابات طبقًا للموقع أو لنطاق الإنفاق المعتاد» أو طبقًا للحد الأعلى لإنفاق العميل» أو 
طبقًا لنوع السلع Baad‏ وکل مها فول غت عة ا 

عندما تُجِمّع البيانات بواسطة أحد مزوّدي خدمة بطاقات الائتمان فإنها لا تحمل 
أي وصف يشير إلى أن المعاملات مشروعة أو احتيالية. ومهمتنا هي استخدام هذه 
EN CA an oll‏ اکى :الكو OE alist‏ و العا ت 
بدقة. ولتحقيق lS‏ سنحتاج إلى Gaul‏ عن مجموعات» أو lid‏ مماثلة ضمن بيانات 
المدخلات. إذنء يمكننا أن نجمع البياناتء على سبيل المثال» طبقًا للمبالغ of Akii‏ مكا 
إجراء المعاملةء أو نوع عملية cel pill‏ أو poe‏ صاحب البطاقة. وعند إجراء معاملة جديدةء 
يُسجّل رقم تعريف المجموعة لهذه المعاملة» lily‏ كان مختلفا عن رقم تعريف المجموعة 
GE‏ ال pes‏ العاجلة gs GR‏ حكن Glo.‏ علي العاملة digest pas:‏ 
المعتادةء فإنها تظل مثار شك إذا كانت بعيدة بقدر GIS‏ عن مركز المجموعة. 

عل يتين الان Bue gf QSAR‏ 25 من المي gad ile‏ اسان ful‏ 2 
سيارةً رياضية lis‏ إذا لم Jad‏ عملية الشراء هذه ضمن مجموعة سلوكيات شرائها 
المعتادة» مثل البقالة وزيارات مصفف الشعرء فإنها تعد انحرافًا. Gly‏ شيء خارج عن 
المألوف» مثل عملية الشراء code‏ يُنظر إليه على أنه يستوجب مزيدًا من البحث والتحقيق» 
وهو ما يبدأ Sule‏ بالتواصل مع مالك البطاقة. کل تر Wis‏ سيط Gita!‏ 
على مخطط مجموعات flay‏ هذه الحالة. 

gagi‏ المجموعة (ب) نفقات الجَّدَّة الشهرية المعتادة مُجِمّعَةٌ في مجموعة واحدة 
مع أشخاص آخرين ينفقون نفس المبالغ شهريًا. ولكن» في بعض الحالات» كالحال عند 
حصولها على عطلتها السنويةء تزداد نفقات BAN‏ خلال هذا الشهرء وربما توضّع في هذه 
الحالة مع الأشخاص في المجموعة (g)‏ والتي لا تبعد GAS‏ عن المجموعة (ب)؛ ومن ثم لا 
dae aad‏ فكوا ]ل Te‏ كتير Gly oe‏ كان التو tai AR‏ أ ois‏ اعروق وة 


Y\ 


مجموعة مختلفةء فسيتم التحقق منها بوصفها Élis‏ مشبوهًا للحساب» إلا أن شراءها 
للسيارة الرياضية الجذابة عبر حسابها يضع مصروفاتها في المجموعة (Í)‏ والتي تبعد 
كثيرًا عن مجموعتها المعتادة» وعليه» فمن غير المرجّح أن تعكس عملية شراء مشروعة. 

Yes‏ النقيض من هذه ALI!‏ إذا كان لدينا بالفعل مجموعة من الأمثلة التي نعلم 
يقينًا أن Fial‏ حدث خلالهاء Vas‏ من خوارزميات التجميع» يمكننا استخدام أساليب 
التصنيفء التي من شأنها أن bás‏ بأسلوب آخر من أساليب التنقيب في البيانات» يُستخدم 
في الكشف عن الاحتيال. 


التصنيف 


لاقيف هن asl‏ أسالبي الق Be‏ اكرات مطل yes‏ مس اة 
Sada blll‏ فق هذا الأعلويه فا بمحموعة les‏ تكو فيها عل ةة 
مضافًا إليها وصف أو dias‏ على نحو صحيح Jail‏ وتنقسم مجموعة البيانات 
هذه إلى «مجموعة تدريب»» WKS‏ من إنشاء نموذج تصنيف من البيانات» و«مجموعة 
اختبان»: تسمتخدم للتحقق من أن النموذج جيد. ثم يمكننا استخدام هذا النموذج في 
تصنيف ملاحظات جديدة حال ظهورها. 

لتوضيح مفهوم التصنيف» سننشئ مخططًا صغيرًا لتسلسل اتخاذ القرارات؛ لكي 
لكف الاحتيال باستكرام بطاقات Stal‏ 


YY 


لماذا البيانات الضخمة مميّزة؟ 


لإنشاء مخطط اتخاذ القرارات الشجريء دعونا نفترض أن بيانات معاملات بطاقة 
الائتمان قد جُمعّتء وأن المعاملات dics‏ إلى deg phe‏ أو احتيالية fi‏ على معرفتنا 
الشسايقة: LS‏ بظهر @ Ney dose‏ 

باستخدام هذه البيانات» Lise‏ إنشاء مخطّط اتخاذ قرارات شجريء كالموضّح في 
شكل Y-Y‏ والذي يمكّن الكمبيوتر من تصنيف المعاملات الجديدة USGL‏ إلى النظام. 
ونأمل أن نصل إلى أحد تصنيقى المعاملات المحتمَلَين؛ Lol‏ مشروعة أو احتياليةء عن طريق 
(cor A AE‏ 


جدول :\-Y‏ مجموعة بيانات احتيالية ذات تصنيفات معلومة 


هل كن aiai N TR TI E aie ee‏ 
البطاقة أو فقدانها؟ غير Saline‏ وسؤاله Le‏ إذا كان قد أجرى 
عملية الشراء هذه؟ 
لا لا معاملة مشروعة 
لا نعم نعم معاملة مشروعة 
لا نعم لا معاملة احتيالية 
نعم معاملة احتيالية 


بدءًا من قمة bball‏ الشجري في شكل Y-Y‏ نجد أن لدينا مجموعةً من الأسئلة 
الاختبارية التى ستمكّننا من تصنيف المعاملات الجديدة. 

كل سبي لكان ]ذا ف خا فصوت الله ل عق فقوا زر اه اا 

أو سرقتهاء فإن أي محاولة لاستخدامها سعد احتيالًا. وإذا لم abs‏ عن فقدان البطاقة 

أى سرقتهاء فإ ن النظام سيتحقّق مما إذا اشأري Fate‏ غير معتاد أو عنصرٌ يتكلّف ميلقا 

sias‏ هذا العميل إنفاقه. إذا لم يحدث ذلكء فلن 5 تعتبر المعاملة غير معتادة شتک 


Lats‏ مشروعة. من ناحية أخرئ: إذا كا ن العنصر غير معتادء فسيتلقّى السيد سميث 
مكلمةٌ هاتفية. )13 كد على أنه أجرى معاملة الشراء Aini‏ مشروعة؛ وإن لم يود ذلك 
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Lial siiu 


ies 


YY 


البيانات الضخمة 


مر هل أبلغ Ge‏ سرفة اليطافة أو فقداتها؟ <a‏ 
هل tate tals‏ 


معاملة احتيالية 


هل ŚÍ‏ العميل عملية الشراء؟ 


معاملة احتيالية 
شكل Y-Y‏ مخطّط اتخاذ القرارات الشجرى الخاص بالمعاملات. 


بعدما توصّلنا إلى تعريفٍ غير رسمى للبيانات الضخمةء وسلّطنا الضوءَ على أنماط 
الأسئلة التى يُمكن الإجابة عنها من خلال التنقيب في البيانات الضخمةء دعونا JLD‏ 
الآن المشكلات المتعلقة بتخزين البيانات. 


ye 


الفصل الثالث 


تخزين البيانات الضخمة 


كانت سعة تخزين القرص الصلب الأولء الذي ابتكرته شركة آي بي dicks al‏ في مدينة 
سان خوزيه بولاية كاليفورنياء حوالي ميجابايت» وكان يحتوي على ٠١‏ قرصًا Aly‏ قطر 
ds‏ منها VE‏ بوصة. كان هذا القرص الصلب أحدث تقنية وون عام NAON‏ كان 
حجم الجهاز SE Le‏ فقد كان يزن ما يزيد عن الطنء وكان hes‏ وا Ge‏ تجهان Sgn‏ 
مركزي. عند هبوط الرحلة أبوللو ١١‏ على سطح القمر عام AATA‏ كان مركز وكالة 
ناما لزعلات القضناء اللأهولة ف puts Gags‏ أجورة کوت هر وة اتوي US‏ 
منها على ذاكرة مساحتها تصل إلى ۸ميجابايت. المثير للدهشة أن الكمبيوتر الذي كا 
على متن سفينة الفضاء أبوللى ١١‏ التي هبطت على سطح القمرء والتي كان يقودها نيل 
أرمسترونجء كان يحتوي على ذاكرة مساحتها 15 كيلوبايت فقط 

تطوّرت تقنيات الكمبيوتر سريعًاء وبحلول بداية ازدهار أجهزة الكمبيوتر الشخصية 
في ثمانينيات القرن العشرين»ء كان متوسط حجم القرص الصلب في الكمبيوتر الشخصي 
cublaree‏ إذا كان الكمبيوتر يتضمَّن قرصًا صلبًا بالفعل؛ إذ لم يكن الحال على هذا 
المنوال دائمًا. وهذه المساحة تكفي لتخزين صورة أو صورتين في يومنا هذا. زادت 
سعة تخزين أجهزة الكمبيوتر بسرعة BS‏ وعلى الرغم من أن سعة تخزين الكمبيوتر 
الشخصي لم تواكب تخزين البيانات الضخمة: فإنها زادت على نحو كبير في السنوات 
الأخيزة + ا بإمكانك حاليًا شراء كمبيوتر شخصى مساحة قرصه الصلب ثمانية 
culls‏ أو canals st‏ مهركات Gal A‏ الو متوافرة خالا opis Anus‏ 
١تيرابايت»‏ وهو ما يكفي لتخزين حوالي ٠٠٠‏ ساعة من الأفلام أو ما يزيد على ٠٠١‏ آلف 
ضور موی ode‏ السات كثيرة gilt (te‏ مهم اليبانا الجديدة all‏ تشع كل 
يوم والذي 5453 بحوالي 5,؟إكسابايت. 


البيانات الضخمة 


Sue استبدلت الصمامات بالترانزسكؤرات ف ستينيات القرن العشرية: تتامى‎ Lovie 
إلكترونية واحدة بسرعة كبيرة للغايةء بما‎ a الترانزستورات التي يمكن وضعها على‎ 
الرغم‎ es GSH يتناسب مع قانون مور تقريبًاء والذي سنتناوله في الجزء الآتي من‎ 

من التوقعات بأننا شارفنا على الوصول إلى الحد الأقصى للتصغير, فإن الأمر يظل É lis‏ 
معقولة ومفيدة. أصبح في مقدورنا الآن رص مليارات الترانزستورات المتزايدة de pull‏ 
على شريحة واحدة: الأمر الذي يتيح لنا تخزين كميات أكبر من البيانات» في حين تسمح 
المعالجات المتعدّدة النوى» بالاشتراك مع برنامج كمبيوتر ذي مؤشرات ترابط Badai‏ 
بمعالجة هذه البيانات. 


قانون مور 
عام ١٦۹٠ء‏ تنبا جوردون مورء الذي أصبح أحد الشركاء المؤسّسين لشركة إنتلء بأنه على 
مدار السنوات العشر القادمة» سيتضاعف تقريبًا عدد الترانزستورات التي يمكن وضعها 
في شريحة YE US‏ شهرًا. gÈ NAVO ples‏ مور من 2855 وقال إن التعقيد سيتضاعف كل 
VY‏ شهرًا على مدار خمس سنوات» ثم عاد مرةٌ أخرى ليقول إنه سيتضاعف VE JS‏ شهرًا. 
اقترح ديفيد هاوس» وهو زميلٌ من شركة إنتل» بعد وضع السرعة المتزايدة للترانزستورات 
في الاعتبار» أن «أداء» الشرائح الإلكترونية المصغرة سيتضاعف IS‏ ۱۸ شهرّاء has‏ التنيق 
الأخير هو الأكثر استخدامًا We‏ فيما يخص قانون مور. Sii‏ هذا التنبق دقته البالغة؛ 
فقن Causes) camel‏ وو رخدي sly‏ وكا كانت عليه ع 
إلا أن مور نفسه يشعر Gl‏ هذا «القانون» لن يستمر طويآد. 

طبقًا لِمَا كتبه al‏ ميتشل والدروب في مقاله الذي شر في عدد شهر فبراير ۲۰٠٠‏ 
من مجلة «نيتشر» العلميةء فقد اقتربت نهاية قانون مور. المعالج الدقيق هو الدائرة 
المتكاملة المسئولة عن تنفيذ التعليمات التي يقدّمها برنامج الكمبيوتر. يتكوّن هذا المعالج 
Bile‏ من مليارات الترانزستورات الكدّسة في مساحة صغيرة للغاية على شريحة مصغرة 
من السيليكون. وثمة بوابة في كل ترانزستور تسمح بتشغيله أو إلغاء تشغيله حتى 
يمكن استخدامه في تخزين صفر أو واحد. ويتدفق تيار JŠS‏ ضئيل للغاية عبر كل بوابة 
ترانزستورء ويّنتج تيار pds gii‏ عند إغلاق البوابة. كان ميتشل والدروب iga‏ 
بالمسافة بين البوابات» وهي Whe‏ عبارة عن فجوات يبلغ حجم الواحدة منها VE‏ نانومترا 
ف Ladd‏ أنؤاغ امعالحات الدقيقة ob poy‏ مشكلف pl)‏ ر Lyall‏ اة Se‏ 


Ya 


تخزين البيانات الضخمة 


تقارب الدوائر الإلكترونية. وكيف Say‏ تشتيتها بفاعليةء hud‏ في تداعي النمو الأنّي 
الذي تنبّأ به قانون مورء الأمر الذي لفت انتباهنا إلى الحدود القصوى الأساسية التي رأى 
أننا نقترب منها de pus‏ 

النانومتر الواحد يساوي V+‏ مترء أو جزءًا من المليون من الملليمتر. ولوضع هذا 
القياس ضمن Gl‏ يبلغ قطر الشعرة cal‏ الإنسان حوالي VO‏ آلف نانومتر» ويتراوح 
قطر الذرة ما بين ٠,١‏ و5,٠‏ نانومتر. زعم باولى جارجينيء أحد العاملين في شركة إنتلء 
آ ی ا ا کک Jiu cai‏ إلى هذا الحد الأقصى في 
المستقبل «oy dll‏ ريما حين ندخل عشرينيات القرن الحادي والعشرين. S‏ والدروب أنه 
«بهذا المعدل» سيكون سلوك الإلكترونات محكومًا بمبدأ عدم اليقين p‏ الذي سيجعل 
الترانزستورات غير موثوقة على نحو ميئوس منه». وكما سنرى في الفصل السابع» من 
المرجّح Me‏ فيما يبدو أن أجهزة الكمبيوتر ALS‏ وهي تقنية لا تزال في مهدهاء هي 
التي سترسم في نهاية المطاف الخطوات المقبلة في هذا الشأن. 

LU aye cS Sle‏ ل ل lll gab Jan‏ ت؛ إن يبدو 
أن كمية البيانات iani‏ تتضاعف تقريبًا ÓS‏ عامّين. كما تزداد كمية البيانات بزيادة 
سعة التخزين وزيادة القدرة على معالجة البيانات. ونحن المستفيدون من ذلك: أصبحت 
نتفليكسء والهواتف SAM‏ وإنترنت الأشياء (طريقة ملائمة لتسمية العدد الهائل من 
أجهزة الاستشعار الإلكترونية المتصلة بالإنترنت)» والحوسبة السحابية (شبكة lle‏ من 
الخوادع Leal‏ فزما بيتها)ء من بين خدمات yg dT‏ موك يفضل gail‏ الى الذي نتيا 
به قانون مور. US‏ هذه البيانات الُنتجة بحاجة إلى التخزين؛ وهذا ما سنتناوله فيما J‏ 


تخزين البيانات الهيكلية 


يمكن لأي شخص يستخدم كمبيوترًا شخصياء أو Ssns‏ را محمولًا. أو USE‏ 
الوصول إلى البيانات Bhail‏ في قواعد البيانات. 6543 البيانات الهيكلية» مثل كشوف 
الحسابات المصرفية وأدلة العناوين الإلكترونية» في قواعد بيانات ارتباطية. ومن أجل 
إدارة هذا aS‏ من البيانات الهيكليةء يُستخدّم نظام إدارة selg‏ بيانات ارتباطية لإنشاء 
البيانات» والحفاظ dele‏ والوصول إليهاء ومعالجتها. LN ae Aas‏ في ل 
مخطط قاعدة البيانات (أي بنية قاعدة البيانات). ولتحقيق ذلكء علينا أن نعرف حقول 
البيانات» oly‏ نكون قادرين على تنظيمها في جداول» ومن A‏ سيكون علينا أن نحدّد 
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البيانات الضخمة 


العلاقات بين الجداول. بمجرد الانتهاء من ذلك وإنشاء قاعدة البيانات» يمكننا أن نملأها 
بالبيانات وإجراء استعلامات فيها باستخدام لغة الاستعلام الهيكلية (SQL)‏ 

من Yall‏ أنه يجب تصميم الجداول بعناية» وقد يتطلّب الأمرُ الكثير من العمل 
لإجراء تغييرات كبيرة. ولكنء ينبغي عدم التقليل من شأن النموذج الارتباطي. فمقارنة 
بالكثير من تطبيقات البيانات الهيكليةء يُعد هذا النموذج سريعًا وموثوقا. يتضمّن أحد 
الجوانب المهمة لتصميم قواعد البيانات الارتباطية coud Alec‏ «التسوية»» وتشمل تقليل 
تكراز البيانات إل الحد الأدنى» ومن ثم الحد من متطلبات التخزين. وتسمح هذه العملية 
بإجراء استعلامات أسرع» ولكن» رغم ذلكء كلما زاد حجم البيانات kals‏ أداء قواعد 
البيانات التقليدية هذه. 

تكمن المشكلة في قابلية التوسّع. Las‏ أن قواعد البيانات الارتباطية odds‏ ف الأساس 
Jo lanl‏ كانم واج dad‏ فإخ,سرهتها وموكوقيتها كتراجمان کا ual‏ المزيد هن 
البيانات. الحل الوحيد لتحقيق قابلية التوشّع هو إضافة المزيد من القدرة الحاسوبية 
والتي لها Le‏ أقصى أيضًا. يُعرّف هذا باسم «قابلية التوسّع الرأسية». على الرغم من 
أن البيانات الهيكلية عادةً ما تَخزَّن وتدار في نظام إدارة قواعد بيانات ارتباطيةء فإن 
كفاءة نظام إدارة قواعد البيانات الارتباطية J‏ حتى مع البيانات الهيكلية» عندما تكون 
البيانات ضخمة؛ أي عندما يكون حجمها بالتيرابايت أو البيتابايت أو أكثر. 

من السمات المهمة لقواعد البيانات الارتباطية وأحد الأسباب الجيدة للاستمرار في 
تاها (gil ga‏ اتقناكى مم الخضاخض. yal Za aN‏ ««الاقماق: والعدل» 
والاستمرارية. تضمن Bill‏ عدم تحديث قواعد البيانات بواسطة المعاملات غير الكاملة: 
ويستبعد الاتساق البيانات غير الصحيحة» ويضمن JI‏ عدم تداخل معاملة مع أخرى, 
وتعني الاستمرارية ضرورة تحديث قاعدة البيانات قبل تنفيذ المعاملة التالية. جميع هذه 
الخصائص مُستحبّة, إلا أن تخزين البيانات الضخمة:؛ التي تكون في الغالب غير هيكلية: 
والوصول إليهاء يتطلّبان Ke‏ مختلقًا. 


تخزين البيانات غير الهيكلية 


فيما pads‏ البيانات غير الهيكليةء لا يصلح استخدام نظام إدارة قواعد البيانات الارتباطية 
لعدة أسبابء لا سيّما أنه بمجرد إنشاء مخطط قاعدة البيانات الارتباطيةء يُصبح من 
الصعب تغييره. علاوة على ذلك» لا يمكن تنظيم البيانات غير الهيكلية في صفوف وأعمدة 


YA 


تخزين البيانات الضخمة 


dalle dads تكرت الديانات‎ Le وا ا ا اة‎ E Uggs Gia Les 
في الوقت الحقيقي وتتطلّب معالجة آنية؛ ولذا على الرغم من أن ن نظام إدارة‎ iiy de pull 
رها ك ف أحرية‎ LS AN العديد مق‎ SUL Alas EE WN البيانات‎ sla 
على ضوء انفجار البيانات الحالي أبحاثُ مكدّفة في أساليب التخزين والإدارة الجديدة.‎ 

لتخزين مجموعات البيانات الهائلة code‏ تَوزّع البيانات على خوادم. وكلما زاد عدد 
الخوادم المتضمّنة. زادت أيضًا احتمالية حدوث عُطل في مرحلة ماء وعليه» فمن المهم أن 
کون Sse Lisa!‏ شيخ Mista‏ ھی GLa‏ سوا وتنك رن كل د تعن ا wilt‏ 
وممًا لا شك فيه أنه في ضوء كميات البيانات الهائلة الجاري معالجتها Úll‏ أصبح يُنظر 
إلى أعطال الأنظمة على أنها Sal‏ حتمي؛ ومن és‏ أصبحت طرق hia‏ عليها Élah‏ في 
أساليب التخزين. كيف G5‏ إذن متطلَّباتُ de pull‏ والموثوقية؟ 


نظام هادوب للملفات المورّعة 


يون نظام اللفات الو عة قورة 26.585 E T Mas‏ النيافات Ledsall‏ عي de ESN‏ 
أجهزة الكمبيوتر. من منطلق تأثره بالأفكار التي نُشرّت في أكتوبر ٠٠٠٢‏ بواسطة شركة 
dese‏ في ورقة بحثية عن إطلاق نظام ملفات جوجلء بدأ دوج كاتينج» الذي كان يعمل 
في ذلك الوقت في شركة ياهوء وزميله مايك كافاريلاء طالب الدراسات العليا في جامعة 
واشنطن» العمل على تطوير نظام هادوب للملفات الموزّعة. 334 هادوب» وهو dal‏ أشهن 
أنظمة الملفات desot‏ جزءًا من مشروع أكبر للبرامج المفتوحة المصدر (gous‏ «هادوب 
إيكوسيستم». سمي النظام باسم هادوب GAS‏ بدُمية صفراء محشوة على هيئة فيل كانت 
Kylee‏ لابن كاتينج والمشروع مكتوب بلغة البرمجة الشهيرة جافا. إذا كنت تستخدم 
فيسبوك» أو تويترء أو إيباي» على سبيل JEM‏ فاعلم أن هادوب يعمل في الخلفية أثناء 
ذلك. يسمح النظام بتخزين البيانات شبه الهيكلية وغير الهيكلية» ويوفر Laie‏ لتحليل 
البيانات. 

SEAN نستخدم نظام هادوب للملفات المورّعةء 365 ¢ البيانات عبر الكثير من‎ Losic 
في مراكز بيانات في جميع أنحاء‎ Glad عشرات الآلافء والموجودة‎ gais عددُها‎ i التي‎ 
شكل ؛ البنية الأساسية لمجموعة واحدة من نظام هادوب للملفات المورّعة.‎ guasa العالم.‎ 
البيانات الفرعية.‎ aá من عُقدة اسم رئيسية واحدة والكثير من‎ OSSE والتي‎ 


Ya 


البيانات الضخمة 


تتعامل Sade‏ الاسم NameNode‏ مع جميع الطلبات التى تصل من كمبيوتر عميلء 
وتوزرّع مساحة التخزينء وتتابع المساحة المتوافرة لانن وو البيانات. كما أنها 
تدير جميع عمليات الملفات الأساسية (مثل فتح الملفات وإغلاقها) وتتحكّم في الوصول إلى 
البيانات بواسطة أجهزة الكمبيوتر العميل. sie Lei‏ البيانات DataNodes‏ فإنها تكون 
مسئولة عن التخزين الفعلي للبيانات» ولفعل ذلك تنشئ الكتل وتحذفها وتنسخها حسب 
الضرورة. 

يعد النسخ المتماثل للبيانات إحدى السمات الرئيسية لنظام هادوب للملفات الموزّعة. 
على سبيل JIU‏ بالنظر إلى شكل A-Y‏ نرئ أن الكظة أ 25504 في US‏ من عقدة البيانات 

١‏ وعقدة البيانات ۲ . ومن المهم أن 6553 عدة نسخ من كل ALS‏ فإن حدث JE‏ في إحدى 

عقد البيانات» يمكن GAT sb‏ أن تتولى زمام الأمور وتواضل dalla alge‏ من دون 
فقد البيانات. لمتابعة عُقد البيانات» إن وت te‏ ما تعطّل منهاء تتسلم عقدة الاسم 
رسالةٌ من کل منها على حدة ÍS‏ ثلاث (Sud lS‏ «رسالة كشف أخطاء الاتصال»» وإذا 
لم تتسلم e alla,‏ أن Gute ete‏ ال هن Gilad‏ ين العمل ‘alley‏ 
إذا تعطّلت عقدة البيانات ١‏ في إرسال رسالة ass‏ أخطاء الاتصال هذه eae‏ عقدة 
البيانات Y‏ هي العقدة المسئولة عن عمليات الكتلة أ. ويختلف الوضع إذا فقدت عقدة 
الاسمء By‏ كلتا الحالتّين يجب استخدام نظام النسخ الاحتياطي المضمّن. 

کا bude‏ البرانات Baaly Boh‏ وا [tia‏ رو ا القطريقات رات 
كثيرة. تبلغ مساحة كل ALS‏ عادةً 15كيلوبايت فقطء ومن ثم فإن هناك الكثير منها. 
إحدى وظائف عقدة الاسم هي تحديد أفضل dade‏ بيانات لاستخدامها sly‏ على الاستخدام 
الحالي» ما يضمن سرعة الوصول إلى البيانات ومعالجتها. ومن ثم م» يصل الكمبيوتر العميل 
إلى كتلة البيانات عبر العقدة المختارة. تضاف säe‏ البيانات Áb‏ لزيادة متطلّبات التخزين 
وعندما توجد ضرورة All‏ وهى السمة المعروفة باسم «قابلية التوسّع الأفقية». 

إحدى المميزات الرئيسية ola‏ هادوب للملفات de Soh!‏ عن قواعد البيانات الارتباطية 
أنه يمكنك جمع كميات كبيرة من البيانات» والإضافة إليهاء وذلك من دون أن تكون لديك 
أدنى 385 أثناء فعل ذلك» Le‏ تريد استخدامها من أجله. يستخدم فيسبوكء على سبيل 
JGN‏ نظام هادوب في تخزين بياناته التي تتزايد كمياتها باستمرار. والنظام لن يتسبّب 
في فقد أي بيانات» كما أنه GI ofaa‏ شيء وكل شيء في صيغته الأصلية. jy‏ إضافة 
säe‏ البيانات حسب الضرورة لا يكلّف الكثير ولا يتطلّب تغيير العُقد الموجودة بالفعل. 
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تخزين البيانات الضخمة 


عقدة الاسم 


تحتوي على بيانات تعريف المجموعات وتدير حق الوصول 


7 5 
/ \ 
/ \ 
/ \ TESS 
a \ رسالة كشف‎ 
1 A 
/ \ أخطاء الاتصال‎ 
A \ 
/ \ 
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عقدة البيانات ۲ 
بعد النسخ المتماثل 


الكتلة أ الكتلة ب 


شكل :١1-٠‏ عرض مُبسّط sjal‏ من مجموعة في نظام هادوب للملفات eS oll‏ 


و 
ع 


وفي حال أصبحت العُقد التى أنشتت سابقًا Sil)‏ عن الحاجة» من السهل إيقافها عن 
العمل كما رانا Ady‏ النيانات الك ذلك Se egal‏ ميقن 
تخزينها بسهولة في نظام إدارة قواعد بيانات ارتباطيةء في حين يمكن تخزين البيانات 
غير الهيكلية بتكلفة منخفضة ويسهولة باستخدام أنظمة الملفات الموزّعة. 


قواعد البيانات غير الارتباطية للبيانات الضخمة 


قواعد البيانات غير الارتباطية (NOSOL)‏ هي الاسم الشامل الذي يشير إلى نوع من قواعد 
البيانات التى «لا تستخدم لغة الاستعلام الهيكلية فقط». لماذا طرأت الحاجة إلى نموذج 
غير ازتباطي لا يستخدم لغة الاستعلام الهيكلية؟ الإجابة المختصرة عن هذا السؤال 
هي أن النموذج غير الارتباطي يسمح لنا بإضافة obly‏ جديدة باستمرار. وللنموذج 
غير الارتباطي بعض السمات الضرورية لإدارة البيانات الضخمةء وهي قابلية aug)‏ 
والقوفن .cliMy‏ مع soy’‏ اقات KEE‏ لن cies‏ .مواصلة الح راسا من دون 
خسارة قدراتها الوظيفيةء بينما يمكنك التوسّع Gast‏ مع قواعد البيانات غير الارتباطية 
الأمر الذي يسمح بالحفاظ على الأداء. قبل أن تصف البنية التحتية لقاعدة البيانات 


¿n 


البيانات الضخمة 


المورّعة غير الارتياطية» وسبب كونها مناسبةًٌ للبيانات الضخمة: علينا Íj‏ أن نتناول 
نظرية .CAP‏ 


نظرية الاتساقء والتوفرء والسماح بخطأ انقطاع الاتصال 


عام ` ald ٠٠‏ إيريك برويرء أستاذ علوم الكمبيوتر في جامعة كاليفورنيا بيركي» نظرية 
الاتساق والتوفر والسماح بخطأ انقطاع الاتصال .(CAP)‏ في سياق نظام قواعد البيانات 
de oll‏ يشير الاتساق إلى الطلب الخاص بضرورة تماثل جميع نسخ البيانات عبر العقد. 
وعليه» في شكل ,.١-"‏ على سبيل JM‏ يجب أن تكون الكتلة أ في عقدة البيانات ١‏ هي 
نفسها الكتلة 7 في Bade‏ البيانات Y‏ ويشترط التوفر أنه إذا تعطّلت إحدى العُقدء فإن 
العقد الأخرى JES‏ تؤدي وظيفتها؛ أي إذا تلك Bae‏ البيانات »١‏ فيجب أن تظل Bade‏ 
البيانات ۲ تعمل. البيانات؛ ومن AS‏ عقد البيانات» تكون pe Lad de ga‏ خوادم متفرقة, 
كن أن بتر فط اتال من هده اهي عن EE REEI TA E‏ 
نكون بصدد ما (Sui‏ بخطأ «انقطاع الاتصال في الشبكة». يتطلّب السماح بهذا الخطأ 
ضرورة ة أن يواصل SO ie‏ ذلك. 

خلاصة N ol‏ نظرية الاتساق والتوفر والسماح بخطأ انقطاع الاتصال على 
أنه فيما gais‏ أي نظام كمبيوتر ehg‏ حيث تتم مشاركة البيانات» يمكن أن يتحقق 
ماران فقط من هذه المعايير الثلاثة. aoe‏ > توجد ثلاثة احتمالات» فالنظام؛ GJ‏ أن 
يكون متسقًا ومتاحًاء Lily‏ أن يكون متسقا ويسمح بخطأ انقطاع الاتصال في الشبكة, 
Lily‏ أن يسمح بخطأ انقطاع الاتصال في الشبكة ويكون متاحًا. لاحظ أنه بما أن الشبكة 
في نظام إدارة قواعد البيانات gels‏ عرض تخا بطاخ الاتصال» فإن الاتساق 
والتوفر وحدهما سيكونان المعياررين Glaus celia] Ba‏ نموذج نظام إدارة قواعد 
البيانات الارتباطية كليهما. BLE‏ قواعد البيانات غير الارتباطيةء بما أن انقطاع الاتصال 
في الشبكة Sal‏ وارد الحدوثء فعلينا أن نختار ما بين الاتساق EF‏ وإذا غضضنا 
الطرف عن التوفرء فسنتمكّن من الانتظار حتى يتحقّق الاتساق. LET‏ إذا اخترنا أن نغض 
الطرف Ge‏ الاتساقء بدلا من ذلك» فإن هذا سيؤدي بالتبعية إلى أن البيانات ستختلف 
من خادم لآخر في بعض الأحيان. 

توجد ثلاث خصائص تصف هذا الوضع بطريقة ملائمة وهي: متوفر دائمّاء ومرن» 
ومتسق في النهاية. ويبدو أن هذه الخصائص الثلاث cele‏ على النقيض من الخصائص 
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تخزين البيانات الضخمة 


الأربع لقواعد البيانات الارتباطية. تشير كلمة «مرن» هنا إلى المرونة في متطلَّبات الاتساق. 
وليس الهدف هو تجاهل Gl‏ من هذه المعايير الثلاثة, بل إيجاد طريقة لتحسينها جميعهاء 
وهي التوفيق بينها في الأساس. 


بنية قواعد البيانات غير الارتباطية 


اشتقت تسمية قواعد البيانات غير الارتباطية (NoSQL)‏ من حقيقة أن لغة الاستعلام 
الهيكلية (SOL)‏ لا يمكن استخدامها للاستعلام في قواعد البيانات ode‏ وعليه» فإن الروابط 
على غرار ما رأيناه في شكل ٤‏ على سبيل المثال» لن تكون مُمكنة. ثمة أربعة أنواع من 
قواعد البيانات غير الارتباطية: قاعدة بيانات المفتاح والقيمةء وقاعدة البيانات القائمة على 
الأعمدةء وقاعدة بيانات ital!‏ وقاعدة بيانات التمثيل البيانى» وتفيد جميعها في تخزين 
الكقيات الكبيرة من الضانات الميكلية duty‏ الويكلية: bus‏ هده الأنواغ فى فاهدة abis‏ 
المفتاح والقيمةء وتتكرّن من مُعرّف (المفتاح) والبيانات المرتبطة بهذا CUAL‏ (القيمة). 
كنا ga‏ موص ق تول 1-1 Bad‏ أن «القيعة» Say‏ أن Bagse police Gadi‏ هن 
البيانات. 


جدول :١1-7”‏ قاعدة بيانات المفتاح والقيمة. 


المفتاح القيمة 
جاين سميث العنوان: YY‏ أي Garb‏ أي مدينة 
توم براون النوع: ذكر؛ الحالة الاجتماعية: متزوج؛ suc‏ الأيناء: Y‏ 


الأفلام المْفضّلة: سندريلاء دراكولاء باتون 


قد توجد بالطبع الكثير من أزواج CHAM‏ والقيمة تلك وأن إضافة أزواج جديدة 
أو حبذت أزواج pel dead‏ هل Jans ee LL‏ قاعدة الساناث ها للتوشع Gad‏ 
الف "كن daat ap ke pe COC Br er‏ البحث عن القيمة الخاصة 
بمفتاح معين. على سبيل المثال» باستخدام المفتاح «جاين سميث»», سنتمگن من العثور 
على عنوانها. وبتوفر كميات ضخمة من البيانات» يوفر هذا النوع من قواعد البيانات حل 
سريعًاء وموثوقاء gasili Llig‏ بسهولة للتخزينء ولكنه محدود بسبب عدم وجود لغة 


ty 


البيانات الضخمة 


استعلام. تَّعَد قواعد البيانات القائمة على الأعمدة وقواعد بيانات المستندء gak‏ لنموذج 
المفتاح والقيمة. 

Ll‏ قواعد بيانات التمثيل البياني» فتتبع نموذجًا مختلفاء ويشيع استخدامها في 
شبكات التواصل الاجتماعيء كما تفيد في تطبيقات الأعمال. Bole‏ ما تكون هذه الرسوم 
البيانية كبيرة للغاية» لا سيّما عندما تستخدّم بواسطة شبكات التواصل الاجتماعي. في 
هذا E‏ هق قوعت اا Maca ghd‏ 
على سبيل المثال» يوضّح الرسم البياني في شكل Y-Y‏ خمس Bd‏ تصل بينها أسهم ÉS‏ 
العلاقات. يتغيّر التمثيل البياني بإضافة säe‏ أو تحديثها أو حذفها. 

في هذا aii fies JEL‏ الأسماء والأقسامء والخطوط المستقيمة هى العلاقات بينها. 
وتستخرج البيانات من التمثيل البياني عن طريق تتيّع هذه الخطوط. gal‏ إذا أردت 
إيجاد «أسماء موظفي قسم تكنولوجيا المعلومات الذين يعولون أطفالا»» على سبيل المثالء 
فسنجد أن بوب يحقّق Guha‏ المعيارين. ولاحظ أن هذا التمثيل البياني ليس i‏ أي 
إذنا Y‏ نتبع اتجاهات الأسهم؛ بل نبحث عن وجود روابط. l‏ 

في الوقت الحاليء iå‏ مقاربة تحاول الحصول على بعض الزخم تَسمَّى NewSQL‏ 
عن Gob‏ الدمج بين أداء قواعد البيانات غير الارتباطية والخصائص الأريع للنموذج 
الارتباطيء» فإن الهدف من هذه التقنية الرتقبة هو حل مشكلات قابلية التوسّع المصاحبة 
للنموذج الارتباطي بما يجعله أكثر ملائمة للاستخدام مع البيانات الضخمة. 
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التخزين السحابى 


على غرار الكثير من المصطلحات الحاسوبية العصريةء يبدو مصطلح السحابة الإلكترونية 
مستساغاء ومريحًاء وجذابًاء ومألوقاء إلا أن «السحابة الإلكترونية» في الحقيقةء كما ذكر 
سابقاء مجرد طريقة للإشارة إلى شبكة من الخوادم المتصلة فيما بينها والموجودة في 
مراكز بيانات ف جميع clash‏ العالم. وتم مراكز"البياناك هذه موقا مركريًا لتخزين 
اتات الضفنة: 

عبر الإنترنت» نتشارك استخدام هذه الخوادم التي تُدار عن بُعدء وتوفرها العديدُ 
من الشركات (بعد دفع رسوم)ء في تخزين الملفات وإدارتهاء وفي تشغيل التطبيقات» وما 
إل :ذلك وطاما أن olla poli nll‏ اة الكل إل السيحابة Lig ASI‏ مو عن 
الكمبيوتر أو أي جهاز آخر لديك» فسيمكنك عرض ملفاتك من أي مكان» ومنح الإذن 
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تخزين البيانات الضخمة 


Jà‏ ”5-7: قاعدة بيانات jil‏ البياني. 


لآخرين للوصول إليها وعرضها. كما يمكنك استخدام برنامج «موجود باستمرار» على 
السحابة الإلكترونية بدلا من البرنامج الموجود على جهاز الكمبيوتر لديك. وعليه» فإن الأمر 
لا يتعلّق بإمكانية الوصول إلى الإنترنت فحسب, بل يتعلّق أيضًا بامتلاك وسيلة لتخزين 
المعلومات ومعالجتهاء ومن هنا جاء مصطلح «الحوسبة السحابية». إن احتياجاتنا الفردية 
إلى التخزين السحابي ليست كبيرة إلى هذه الدرجةء ولكن في حال زيادتها ستزيد كمية 
العلومات Beet‏ وصور Mh‏ 

das‏ شركة أماقون nS)‏ مزن الك مات الشحانية: إلا أن عمية الديافاك الثى تديرها 
ا عل أنها مر Gig cess‏ أن Gta.‏ عن Gaal‏ هده الشركة وبمال 
الحوسبة السحابية من خلال تناول حادثة وقعت في فبراير ۲١۰٠۷‏ عندما تعرّض نظام 
التخزين السحابي لمنصة «خدمات أمازون ويب» (إس ثري) إلى «عطل» كبير (أي انقطاع 
all Satish (Led!‏ تيو كمون ماعات dic Stig‏ التقطاع الاتصال بالكو من مواقم 
الويب والخدمات الإلكترونية» Ley‏ في ذلك نتفليكس» وإكسبيدياء وهيئة الأوراق المالية 
والبورصات الأمريكية. أعلنت أمازون Lad‏ بعد أن سبب العطل كان Lbs‏ بشريًاء حيث 


£0 


البيانات الضخمة 


ذكرت أن ن أحد موظفيها تسبَّب في قطع الاتصال عن الخوادم دون قصد. واستغرقت إعادة 
تشغيل هذه الأنظمة الضخمة Gay‏ أكبر من المتوقع: ولكنها os‏ في النهاية بنجاح. . ورغم 
لكان لطع هذة hala)‏ الهو عا ales os poy ala‏ مو كان ذلك Usd datas‏ 
غير مقصود أو عملية قرصنة خبيثة „uaill‏ 


ضغط البيانات غير المنقوص 


في YW‏ قدّرت مؤسسة البيانات الدولية الشهيرة أنَّ إجمالي حجم الكون الرقمي هائل 
ويبلغ ١زيتابايت؛‏ وهو piai sse‏ إدراكه يساوي ٠١٠١ × ١7‏ "بايت. وبالتاليء فإنه مع 
النمو المطرد للكون الرقمي» سيصبح من الضروري الإجابة عن الأسئلة المتعلّقة بماهية 
La‏ القن مكب أن ف atl ies api‏ الخد سك gs BG‏ جد ن 
ا ولاه کر Ue ay‏ فا UUM wes ol‏ ا يز فعا إل عزف اا من 
مخازن البيانات بصورة منتظمة أو حتى أرشفتها؛ وذلك لأن هذه العملية في ذاتها ales‏ 
ومن المحتمل أن تُفقّد بيانات قيمّة Ly‏ ننا لا نعلم بالضرورة ماهية البيانات التي قد 
تكون dogs‏ لنا في المستقبل. ولكنء مع كميات البيانات الهائلة الجاري تخزينهاء أصبح 
ضغط البيانات ضروريًا لزيادة مساحة التخزين المتاحة إلى الحد الأقصى. 

ثمة تبايّن كبير في جودة البيانات التي gai‏ إلكترونيًا؛ ومن ثم لا بد من معالجة 
ee‏ وذلك من أجل الكشف عن مشكلات الاتساق 
والتكرار والموثوقية وعلاجها. من الواضح أن الاتساق مهم إذا كنا بصدد الاعتماد على 
المعلومات المستخرجة من البيانات. كما أن 0 التكرارات غير المرغوب فيها من تدابير 
الإعداد التحضيرية الجيدة GY‏ مجموعة بيانات» ولكن» مع وجود مجموعات البيانات 
الضخمة يطرأ هاجس GLA!‏ بعدم توفر مساحة تخزين كافية للاحتفاظ بكل البيانات. 
وعليه» bias‏ البيانات لتقليل التكرار في مقاطع الفيديو والصور؛ ومن ثمَّ الحد من 
متطلّبات التخزين» وتحسين معدلات البث في حالة مقاطع الفيديو. 

3 «yell! عبر النقوصض. والشدغط‎ taal! الفط‎ Ge :ركسا‎ gles Ld 
«الضغط غير المنقوص»» يُحتفّظ بالبيانات كلها دون فقد أي منها؛ ومن ثم يفيد هذا‎ 
تُضغّط دون‎ ZIP الملفات» التي لها الامتداد‎ JEL النوع تحديدًا مع النصوص. على سبيل‎ 
فقد أي معلومات» ما يعني أن فك ضغطها يعيدنا إلى الملف الأصلي. إذا ضغطنا سلسلةٌ من‎ 
فمن السهل أن نعرف كيفية فك ضغط‎ :5310 disa على‎ aaaaabbbbbbbbbb الأحرف‎ 


ا 


تخزين البيانات الضخمة 


هذه السلسلة وإعادتها مرة أخرى إلى السلسلة الأصلية. يوجد الكثير من الخوارزميات 
المستخدّمة في ضغط البيانات» ولكن سيفيدنا أو أن نتعرّف على كيفية تخزين الملفات 
دون 

133 نظام ASCI‏ (الشفرة القياسية الأمريكية لتبادل المعلومات) الطريقة القياسية 
لترميز البيانات حتى يمكن تخزينها على أجهزة الكمبيوتر. يُخصّص JS!‏ حرف أو رمز 
Jac‏ ترتيبي» وهو رمز ASCI‏ الخاص به. ومثلما رأينا bile‏ تخْرّن البيانات على هيئة 
Lule‏ من قيم الأضفان والآكاك: سكي US‏ من هذه الأرقاح cur USL‏ وت ةم 
نظام ASCI‏ القياسي ۸بت (وهو ما يُعرّف LAÍ‏ بأنه (cub) July‏ اریت كل جرت 
ورمز. على سبيل SEM‏ في نظام ASCH‏ 545 للحرف a‏ بالعدد WV‏ والذي يتحوّل إلى 
٠٠٠٠٠٠١‏ بالنظام الثنائي. هذه القيم مُدرجّة في جدول نظام ASCI‏ القياسيء الذي 
وهنا هوا ale Gas tee‏ هذا AUS‏ وفيا يقن Sus Ral zai‏ 
bls‏ لها رمورًا مختلفة في نظام ASCH‏ 

VAY كو مرون ف .دول‎ LS added كيفية فرشو اة الأحرف‎ flit Lyon 


جدول 7-7: سلسلة أحرف بعد ترميزها 


a d d e d سلسلة الأحرف‎ 
۹۷ 1۰۰ 1۰۰ 1۰۱ 1۰۰ ASCII 
لالا ل لا‎ Vevey ءا١١١٠١١‎ A النظام‎ 


إذن» JAAS‏ سلسلة الأحرف added‏ مساحة تخزين مقدارها culo‏ أو 0 × ۸ 
cyt ٠=‏ وبالنظر إلى شكل giai V‏ فك الترميز باستخدام جدول رموز ASCI‏ لا 
تعد هذه fish‏ اقتصادية لترميز البيانات وتخزينها؛ إذ إن تعيين ۸بت لكل حرف يبدو 
مساحة GIL‏ فيها ولا تأخذ في الاعتبار حقيقة أن بعض الحروف في المستندات النصية 
تُستخدّم بوتيرة أكثر تكرارًا من غيرها. يوجد الكثير من gila‏ ضغط البيانات دون 
فقدهاء مثل خوارزمية هوفمان» التي تستخدم مساحة تخزين أقل عن طريق الترميز 
المتغير الطول» وهو أسلوب يعتمد على مدى تكرار حرف معين. تعن للأحرف الأكثر 
تكرارًا رموز أقصر طولًا. 


¿V 


البيانات الضخمة 


بالرجوع إلى سلسلة الأحرف added‏ مرة أخرى» نلاحظ أن الحرف a‏ يظهر Bye‏ 
واحدة» والحرف © يظهر Be‏ واحدة» والحرف d‏ يظهر ثلاث مرات. ويما أن الحرف d‏ 
هو الأكثر تكراراء فلا بد أن يُخصّص له أقصر رمز. لإيجاد رمز هوفمان لكل حرفء تعد 
الأحرف المكوّنة لكلمة added‏ على النحو الآتي: 


la — le — 3d 


بعد ذلك» نبحث عن الحرقين الأقل تكرارًا؛ أي الحرقين ey a‏ ثم نُنشئ التركيب 
الوضحخ ى فشكل outs VY‏ «الشهزة الكناقية» العدى ١ف‏ أعل الشهرة هى بحاصل 
جمع عدد مرات تكرار الحرقين الأقل تكرارًا. 


7 


la le 


شكل :Y-Y‏ شجرة ثنائية. 


نوصح في شكل 5-7 العقدة الجديدة التى تمثل التكرارات الثلاثة للحرف d‏ 


2 30 
JN 
la le 


شكل 7-:: الشجرة الثنائية مع إضافة عقدة Bosse‏ 


wiy‏ شكل ٤-۳‏ الشجرة الكاملة وقد وضع في أعلاها isal‏ الإجمالي لتكرارات 
الحرف. ويتم ترميز كل طرف في الشجرة Le‏ بصفر Glg‏ بواحد» LS‏ هو موضح في شكل 


2 


0-7 ويكون التوصل إلى الرموز المقابلة من خلال ats‏ المسارات حتى أعلى الشجرة. 


EA 
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0 8 AI (culls) الحرف | الرمز‎ 
30 = 


0/ NG 7 ‘ 


la le \ d 


شكل 20-7 الشجرة الثنائية كاملة. 


Ve = وع‎ A = ول‎ eV = وك‎ ٠0 =a كالآتى:‎ added يتم ترميز كلمة‎ caleg 
ولاك ای ب ا ا سوه الظريقة ا ا‎ 
و بت لتخزين الحرف‎ a المستخدمة هى "بت لتخزين الحرف 4» و ٣بت لتخزين الحرف‎ 
UN gE E EAS u EE OEE Eku e 
الأضلية التى تبلغ #بت.‎ 

Sb فيفط‎ iS ون ساب‎ ENS E لقان مدي‎ ta T. 
lt فى هذا‎ a مقموةا عل حو‎ bra اعد اللقات مرن‎ ea واف اا‎ 
شاو كدري للب يدي ا‎ Vea 
التخزين. ومن الناحية العمليةء تكون هذه الأشجار كبيرةٌ للغاية؛ ومن ثم تُستخدّم أساليب‎ 
كدو‎ UNE ican E ial ركذ رمضم اذا هذا‎ cies eu hy 
مق‎ pill املف الاح .ومن هذا جات فس هذا‎ LA فقن أن من العلومات‎ 
كط السات الفط غر ال‎ 


ضغط البيانات المنقوص 


في المقابل» Sule‏ ما تكون ملفات الصوت والصور أكبر بكثير من ملفات النصوص؛ ومن 
ثم يُستخدم معها أسلوب مختلف pus‏ «الضغط المنقوص». ويرجع هذا إلى Gi‏ تطبيق 
أساليب الضغط غير المنقوص عند التعامل مع ملفات الصوت والصور قد لا يُسفر عن 
نسبة ضغط عالية بما يكفي ليكون تخزين البيانات بهذه الطريقة Gua‏ هذا بالإضافة 
إلى أن فقد بعض البيانات من ملفات الصوت والصور Sal‏ مقبول. يستفل الضغط 
المنقوص هذه السمة الأخيرةء ويحذف بعض البيانات في GI‏ الأصلي؛ ومن ثمَّ يُقلّل من 


EA 


البيانات الضخمة 


مساحة التخزين اللازمة. تتمحور الفكرة الرئيسية حول حذف بعض التفاصيل دون أن 
Ab,‏ ذلك بدرجة كبيرة على إدراكنا للصورة أو الصوت. 

على سبيل JUN‏ لنفترض GF‏ لدينا صورة فوتوغرافية بالأبيض والأسودء أو بوصفٍ 
Gul‏ «صورة ذات تدرّج رمادي»» لطفل يتناول الآيس كريم على شاطئ البحر. يحذف 
الضغط المنقوص كميتين متمائلتين من البيانات من صورة الطفل ومن صورة البحر. 
تَحسَب نسبة البيانات المحذوفة بحيث لا يكون لها تأثير كبير على إدراك الناظر للصورة 
الناتجة (المضغوطة)؛ فالضغط المفرط سيؤدي إلى صورة ASAS‏ ذلك حيث تأتي زيادة 
مستوى الضغط على حساب جودة الصورة. 

إذا أردنا ضغط صورة ذات giS‏ رماديء فإننا نقسّمها {of‏ إلى مربعات تبلغ 
مساحة IS‏ منها A‏ بكسل × ۸ بكسل. ويما أن هذه المساحة صغيرة للغايةء فستكون 
جميع وحدات الكسل حتشائية بوحه عام من حبك IS EN‏ ومن ثم تفذل هذه ABST‏ 
بالإضافة إلى aly!‏ بآلية إدراكنا للصورء أحد أساسيات الضغط المنقوص. يحتوي US‏ 
بكسل على قيمة عددية تتراوح ما بين صفر للأسود الخالص و5550 للأييض الخالص» 
ÉS,‏ الأعدادُ التي تندرج بينهما JMB‏ اللون الرمادي. وبعد إجراء بعض المعالجة 
الإضافية باستخدام طريقة chat‏ «خوارزمية جيب التمام المتقطع»» نحصل على متوسط 
قيمة الكثافة لكل كتلةء oliy‏ النتائج مع US‏ من القيم الفعلية AGS!‏ معينة. ويما 
أننا نقارن هذه القيم الفعلية بمتوسط القيمة» فإن معظمها سيكون صفرًا أو سيصبح 
صفرًا عند تقريبه. تجمع خوارزمية الضغط المنقوص جميع هذه الأصفار dia‏ وهو ما 
(es‏ العلوينات لاخو دة G8‏ وحدات الكل الأقل أهمية deals‏ إلى الصورة. Eea‏ 
هذه القيم» التي تناظر المناطق ذات الترددات العالية في الصورةء معًا وتَحدَّف المعلومات 
الكررة باستخدام أسلوب (hud‏ «التكميم؛ ومن ثم Sans‏ الضغط. fo‏ سبيل JEM‏ 
إذا کان لدينا VE‏ قيمةٌ يلزم لتخزين US‏ منها بايت واحد» وکان لدينا ۲۰ صفرًاء فإن US‏ 
ما سنحتاجه بعد الضغط هو مساحة تخزين مقدارها o‏ :بايت فقط. 95559 هذه العملية 
مع جميع الكتل المكوّنة للصورة؛ ومن ثم تَحدّف المعلومات الْمكرّرة منها جميعًا. 

فيما يخص الصور الملوّنة» تتعرّف خوارزمية «جيه بي إي جي» (المجموعة المشتركة 
لخبراء التصوير الفوتوغرافي)» على سبيل SEM‏ على الألوان الأحمر والأزرق والأخضرء 
وتّعيّن USI‏ منها iad‏ مختلفا Aly‏ على الخصائص المعروفة للإدراك البصري لدى البشر. 
of‏ لِلّون الأخضر أقصى بُعد؛ لأن العين البشرية أكثر إدراكًا Goll‏ الأخضر عن اللّونَين 
الأحمر والأزرق. fads‏ لكل بكسل في الصور BSU‏ قيمة كثافة لمكونات اللون الأحمر 


تخزين البيانات الضخمة 


والأزرق والأخضر فيهاء Eady‏ هذا بالقيمة الثلاثية G, B‏ ,۸. ولأسباب Bole Aad‏ ما 
Go‏ قيم G B‏ :8 الثلافية إل قيمة خلافية أخرئ: “مكل dus YCbCr‏ يمل حرف Y‏ 
كثافة اللون» Sy‏ من Cry CD‏ هما قيمتا التشبّع اللونيء اللتان تصفان اللون الفعلي. 
وباستخدام خوارزمية رياضية Baias‏ يمكن تقليل قيم كل بكسل وإجراء ضغط منقوص 
في نهاية المطاف من خلال تقليل عدد وحدات البكسل المحفوظة. 

بوجه ale‏ يتم ضغط ملفات الوسائط المتعدّدة باستخدام أساليب الضغط المنقوص 
نظرًا لأحجامها الكبيرة. فكلما زاد مستوى ضغط الملف» تراجعت جودة إعادة إنتاجه؛ 
ولكن» نظرًا للتضحية ببعض البيانات» يمكن تحقيق نسب ضغط أكبرء Le‏ يجعل الملف 
أصغر حجمًا. 

بعد أن وضعت المجموعةٌ المشتركة لخبراء التصور الفوتوغرافي معيارًا Lys‏ لضغط 
الصور للمرة الأولى عام ۱۹۹۲ء أصبح تنسيق الملف JPEG‏ هو الطريقة الأكثر شيوعًا 
لضغط الصور الفوتوغرافية سواءٌ الملونة أم ذات التدرج الرمادي. ولا JIS‏ هذه المجموعة 
تزاول نشاطها وتعقد اجتماعاتها Buc‏ مرات ele IS‏ 

sail‏ مجدَّدًا إلى مثال الصورة الفوتوغرافية ذات اللوتّين الأبيض والأسود الملتقطة 
لطفل يتناول الآيس كريم على شاطئ البحر. من البديهي أن نراعي عند ضغط هذه 
الصورة أن يظل الجزء الذي يُظهر الطفل واضحًا؛ ومن BS‏ فإننا نضحي في سبيل ذلك 
E‏ ومن وشو تفاضيل E‏ ره ا مم الظطريقة الحديدة اة 
«ضغط البيانات عن طريق تمويههاء»» التي ابتكرها الباحثون في GIS‏ هنري سامويلي 
للهندسة والعلوم التطبيقيةء بجامعة كاليفورنيا في لوس أنجلوس. وفيما Gad‏ القراء 
المهتمين بالتفاصيلء يُرجى مراجعة جزء «قراءات إضافية» في نهاية هذا الكتاب. 

رأينا كيف يمكن استخدام نظام ملفات البيانات def oll‏ في تخزين البيانات الضخمة. 
وك E ES E‏ حكن ال REE‏ شتات 
البيانات الضنكمة ف الاحاية عن AGA‏ التى كانت jie‏ الأحاية عثها سابقا LS,‏ سترى 
في الفصل الرابع» تُستخدم طروقة ductile‏ تُسمَّى «ماب رديوس» في معالجة البيانات 
المخزنة في نظام هادوب للملفات الموزّعة. 


ه١‎ 


الفصل الرابع 


تحليلات البيانات الضخمة 


بعدما ies‏ عن GAS‏ جمع البيانات الضخمة وتخزينهاء يمكننا الآن تناول بعض من 
الأساليب المستخدمة في استخراج المعلومات المفيدة من هذه البيانات» على غرار تفضيلات 
العملاء أو مدى سرعة انتشار وياء Le‏ تتغيّر تحليلات البيانات الضخمة» المصطلح 
الشامل لأساليب تحليل البيانات» بسرعة مع تزايد أحجام مجموعات البيانات وإفساح 
ale‏ الإحصاء التقليدي JL‏ أمام هذا النموذج الجديد. 

تقدِّم شركة هادوبء التي تعرّفنا عليها في الفصل الثالثء dey‏ لتخزين البيانات 
الضخمة من خلال نظام الملفات الموزّعة الذي أنشأته. وكمثال على أساليب تحليل البيانات 
الضخمةء سنلقي نظرة على نموذج «ماب رديوس» البرمجيء وهو عبارة عن نظام معالجة 
للبيانات المورّعة والذي يشكّل جزءًا من الوظيفة الأساسية لنظام «هادوب إيكوسيستم». 
تستخدم أمازون» وجوجلء وفيسبوك» وغيرها من مؤسساتٍ أخرى نظام هادوب في تخزين 


بياناتها ومعالجتها. 


Tiga‏ «ماب رديوس» 


إحدى الطرق الشائعة للتعامل مع البيانات الضخمة هي تقسيمها إلى مجموعاتٍ صغيرة 
ثم معالجة JS‏ من هذه المجموعات على liag Bua‏ ما يفعله نموذج «ماب رديوس» 
MapReduce‏ في الأساس عن Gob‏ توزيع العمليات الحسابية أو الاستعلامات المطلوبة 
على الكثير والكثير من أجهزة الكمبيوتر. من المفيد أن نتناول مثالا iisa‏ ومختصرًا على 
آلية عون وماد و وخا ا کل كلفد يدو aes Sf E‏ كلها هذا PE‏ 
إلى de‏ كبير» ولكنه يوضّح في الوقت نفسه الآلية المستخدمة مع البيانات الضخمة. لا 
توجد بطبيعة الحال عدة آلاف من المعالجات المستخدّمة في معالجة كمية ضخمة من 


البيانات الضخمة 


البيانات على نحو متزامن» ولكنء هذه الآلية quill ALL‏ وهي فكرة بارعة ومن السهل 

ثمة أجزاء عديدة في هذا النموذج التحليلي: OKA‏ «التجزئة»» ومرحلة «الخلط»» 
ومُكَوّن «التجميع». G32 ESS‏ التجزئة بواسطة الُستخدم» ويجري فيه فرز البيانات 
التي تهمنا. ثم تأتي مرحلة الخلطء التي تعد جزءًا رئيسيًا من الكود الرئيسي لنموذج 
Glo‏ رديوس» من هادوب» حيث تُوضّع البيانات في مجموعات حسب المفتاح» Gais‏ 
نصل إلى OSEA‏ التجميع؛ الذي يكتبه المستخدم LAÍ‏ والذي يتولى تجميع هذه المجموعات 
وعرض النتيجة. Jig‏ النتيجة بعد ذلك إلى نظام هادوب للملفات المورّعة من أجل 

لنفترضء على سبيل المثال» أن لدينا ملفات المفتاح والقيمة الآتية aah‏ في نظام 
هادوب للملفات الموزّعة. مع sgag‏ إحصاءات عن US‏ من الأمراض التالية: الحصبةء 
وفيروس زيكاء والسّلء والإيبولا. في هذه الحالةء المرض هو المفتاح, وتُعّن له قيمة ied‏ 
suc‏ الحالات المصابة JG‏ مرض. ما يهمنا هو إجمالي عدد الحالات لكل مرض. 

:١ الملف‎ 

Y الحصبة‎ 

فيروس زيكاء Y‏ السّلء ١‏ الحصبةء A‏ 

فيروس زيكاء Y‏ الإيبولاء ۲ 

y الملف‎ 

tual 

فيروس زيكاء Y‏ السّلء A‏ 

الملف ۳: 

الحصبةء Y‏ فيروس زيكاء VY‏ 

الحصبةء Y‏ فيروس زيكاء ”. 

الحصبةء É‏ فيروس زيكاء ١‏ الإيبولاء T‏ 


تمكّننا أداة ا من ملفات الكل E‏ ظا 
ee Irn‏ ل 
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تفصل أداة التعيين أزواج المفتاح والقيمة 
الإدخال 


Y الحصبةء‎ 5 x i 


فيروس زيكاء Y‏ الشّلء ١‏ الحصبة ا لع aad‏ زيكاء ؟ السّل Na‏ الخصبة ٠١‏ 
فيروس زيكاء ؟ الإيبولاء ۲ 
عت كن É‏ فيروس زيكاء ۲ اهبو ۲ 


الحصبة؛ £ 


فيروس زيكاء؟ السلء k ١‏ فيروس یکا ۲ ١ hid‏ 


الحصبة» ۲ فيروس زيكاء ۲ م الحصبة» Y‏ فيروس زيكاء ۲ 


شكل :١-5‏ دالة التجزئة. 


بعد تجزثة الملفات وإيجاد أزواج المفتاح والقيمة لكل ملف Jóas‏ تُستخدّم في الخطوة 
التالية الخوارزمية التي Leddy‏ البرنامج الرئيسيء والتي DS‏ فرز أزواج المفتاح والقيمة 
وخلطها. يُجرى فرزٌ أبجدي راض رهل النقيجة إل ملف ماس ادا اة 
التجميع: كما هى موشع ف شكل S-i‏ 

استمرارًا مع شكل 5-5؛ يدمج OSE‏ التجميع نتائج مرحلتي التجزئة والخلطء 
ويد lal‏ يرس وتات کل موک آل مت فل وعد زاف ت مرا اتی 
في الخوارزمية بحساب الإجماليات الفردية ثم dus‏ هذه النتائج إلى ملف إخراج نهائيء 
في صورة أزواج CLAN‏ والقيمةء يمكن حفظه في نظام الملفات الْموزّعة. 
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فيروس زيكاء ۲ السّلء ١‏ 


الحصبةء Y‏ فيروس زيكاء ۲ 


الحصبة»ء Y‏ فيروس زيكاء ١‏ الإيبولاء ۲ 


شكل 5-": Gils‏ الخلط والتجميع. 


يعد هذا Ía‏ بسيطًا للغاية» ولكن يُمَكّننا نموذج «ماب رديوس» من تحليل كمياتٍ 
كبيرة للغاية من البيانات. على سبيل JEM‏ باستخدام البيانات التي تقدَّمها مؤسسة 
كومون كراول» وهي مؤسسة غير ربحية توفر نسخةٌ مجانية من شبكة ob RY‏ يمكننا 
إحصاء عدد مرات ظهون فل كلمة Go‏ شيكة ارت عن طريق كتابة برنامج كمبيوتر 
مناسب يستخدم نموذج «ماب رديوس» البرمجي. 


عوامل تصفية «agli‏ 


أحد الأساليب المفيدة dags‏ خاص ف التنقيب في البيانات الضخمة عامل تصفية «بلوم» 
Bloom‏ وهو أسلوبٌ يعتمد على نظرية الاحتمال ابتّكرٌ في سبعينيات القرن العشرين. كما 
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سنرى» تناسب عوامل تصفية «بلوم» بشكل خاص التطبيقات التي fied‏ فيها التخزين 
مشكلةء والتي يمكن فيها التفكير في البيانات على هيئة ٠ ASG‏ 

الفكرة الأساسية في dolge‏ تصفية «بلوم» أننا نريد إنشاء pls‏ بناءً على قائمة من 
عناصر البيانات» للإجابة عن السؤال dar‏ يوجد (os)‏ في القائمة؟» في Ue‏ مجموعات 
البيانات الضخمة؛ قد تصبح عملية البحث في المجموعة بأكملها بطيئة للغاية بما يجعل 
البحث غير مفيد؛ ومن ثم نستخدم عامل تصفية «بلوم» الذي لا يكون دقيقًا بنسبة ٠٠١‏ 
في الماكة؛ لأنه أسلوب قائم على الاحتمالات - قد تحدّد الخوارزمية أن عنصرًا ما ينتمى إلى 
Lala‏ رهم أنة لا catty‏ إليها ف الوافي ولكنه مع ذلك Laglal‏ يكسم بالسرعة واللوقوقية 
وكفاءة التخزين لاستخراج المعلومات المفيدة من البيانات. 

لعوامل تصفية «بلوم» الكثير من الاستخدامات. على سبيل المثال» يمكن استخدامها 
للتحقق Leo‏ إذا كان عنوان ويب معين يؤدي إلى موقع إلكتروني ضار. في هذه الحالةء 
قد يعمل عامل تصفية «بلوم» بمثابة قائمة حظر بعناوين المواقع الإلكترونية الضارة 
المعروفة والتي يمكن الاستعانة بها pial‏ « بسرعة ودقةء مما إذا GIS‏ عنوان الموقع 
الإلكتروني الذي نقرت عليه للتو Gel‏ أم لا. ويمكن كذلك أن نضيف إلى قائمة الحظر 
عناوين المواقع الإلكترونية التي Éa Gaasi‏ أنها ضارة. Less‏ أن عدد المواقع الإلكترونية 
قد Gils bas‏ المليار. ويُضاف المزيد منها Legs‏ أصبح تتيّع المواقع الإلكترونية الضارة 
إحدى مشكلات البيانات الضخمة. 

أحد الأمثلة الوثيقة الصلة على ذلك رسائل البريد الإلكتروني a Lal‏ التي ربما تكون 
بريدًا عشوائيًا أو ريما تحتوي على محاولات تصيّد احتيالي. . يوفر لنا عامل تصفية «بلوم» 
طريقة سريعة للتحقق من كل عنوان بريد إلكتروني؛ ومن ثم نتمگن من إصدار تحذير 
في الوقت المناسب إذا لزم الأمر. يشغل كل عنوان ١بايت‏ تقريبًا؛ ومن ÓB AS‏ تخزين OS‏ 
منها وفحصه عملية تستهلك Gay‏ طويلًا للغاية بما أننا نحتاج إلى تنفيذ هذا بسرعة كبيرة 
- باستخدام عامل تصفية «بلوم»» يمكننا تقليل كمية البيانات المخزَّنة كثيرًا. يمكننا أن 
نرى LAS‏ هذا Úle‏ باتباع عملية إنشاء عامل تصفية sb»‏ صغير واستعراض آلية 
عمله. 

لنفترض أن لدينا قائمةٌ بعناوين البريد الإلكتروني التالية» ونريد أن نضع عليها 
idle‏ بأنها ضارة: .aaa@aaaa.com; bbb@nnnn.com; ccc@ff.com; dd@ggg.com‏ 
لإنشاء عامل تصفية «بلوم» الخاص بناء نفترض أولًا أن مساحة الذاكرة المتوافرة لدينا 
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على جهاز الكمبيوتر هي ٠١‏ بت. يُطلّق على هذا اسم «مصفوفة البت»» وتكون فارغةٌ في 
البداية. للبت حالتان فقطء يُرمز لهما Sule‏ بصفر وواحد؛ ولذا سنبداً بضبط كل القيم 
في مصفوفة البت على »٠‏ ما يعني أنها فارغة. وكما سنرى بعد قليل» سيعني البت الذي 
l Jaaa SOLE GS‏ 

حجم مصفوفة البت ثابت» وسيظل كما هو دون تغيير بغض النظر عن عدد الحالات 
التي نُضيفها. وننشئ Ling’‏ لكل بت في المصفوفة كما هو موضّح في جدول .١-5‏ 


جدول :١-5‏ مصفوفة مكوّنة من ١٠بت‏ 


الفهرس °0 ١‏ «* ۳ ع ه5086 لا لم 4 


علينا الآن أن نتعرّف على «دوال التجزئة»» وهي عبارة عن خوارزميات مُصمّمة 
لتعيين US‏ عنصر في قائمة معينة إلى موضع ما في المصفوفة. وبذلك» لن OSAN‏ سوى 
الموضع ofall‏ في المصفوفةء بدلا من عنوان البريد الإلكتروني نفسه؛ ومن Ab‏ يقل مقدار 
مساحة التخزين المطلوية. 

في شرحنا هناء سنعرض نتيجة استخدام jad Gills‏ ولكنء تستخدم في المعتاد 
۷ أو Ula VA‏ معًا في حالة التعامل مع مصفوفة أكبر بكثير. lary‏ أن هذه الدوال iaia‏ 
لإجراء Like‏ التعيين على نحو موحّد نوعًا de‏ فإن JS‏ فهرس لديه فرصة متساوية 
لعرضه كنتيجة في كل مرة Gabi‏ فيها خوارزمية التجزئة على عنوان مختلف. 

ومن ثم علينا أو أن ندع خوارزميات التجزئة ثعبن US‏ عنوان بريد إلكتروني إلى 
أحد فهارس المصفوفة. 

لإضافة العنوان الإلكتروني aaa@aaaa.com‏ إلى المصفوفةء يُمرّر Vol‏ عبر دالة 
التجزئة ١ء‏ التي تعرض قيمة موضع أو فهرس داخل المصفوفة. على سبيل JÖN‏ دعونا 
نفترض أن دالة التجزئة ١‏ عرضت الفهرس ". وعند تطبيق دالة التجزئة Y‏ على العنوان 
الإلكترونى 333©232323.00112,. عرضت الفهرس ۲. سيكون لكل من هدّين الموضعين قيمة 
بت مُخْرّنة لهما ad‏ على .١‏ إذا كان الموضع Gab‏ على القيمة ١‏ بالفعل» فإنه A‏ 
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كما هو. ويالمثل» قد ينتج عن إضافة العنوان الإلكترونى bbb@nnnn.com‏ في الموضعين 
Gude Jad Vy Y‏ الموضعّين أو تعيين القيمة ١‏ لهماء وقد ينتج عن إضافة العنوان 
الإلكترونى cec@ff.com‏ الموضعان 5 Vy‏ وأخيراء افترض أن دالتّى التجزئة المطبقتّين 
على العنوان الإلكتروني 70 ينتج عنهما الموضعين ۲ Vg‏ يعرض جدول ۲-٤‏ 
ملخصًا بهذه النتائج. 


جدول £-¥: ملخص نتائج دالتّي التجزكة 


۲ دالة التجزئة‎ ١ التجزئة‎ ally الييانات‎ 
3 Y aaa@aaa.com 
۷ ۲ bbb@nnnn.com 
۷ 3 ccc@ff.com 
1 ۲ dd@ggg.com 


مصفوفة عامل تصفية «بلوم» الحقيقي موضّحة في جدول ٠-٤‏ مع تعيين القيمة ١‏ 
إلى المواضع المشغولة فيها. 


جدول 5-": عامل تصفية «بلوم» لعناوين البريد الإلكتروني الضارة 


4 ه506 لا لم‎ £ ۳ + ١ 0 الفهرس‎ 
١ ١ ٠ ١ ١ ١ ٠ ٠ قيمة البت‎ 


كيف E E a a‏ ا 

Ul‏ شا وال بريد لكوي رو غب دان E‏ كان الران تمر قائمة 
عناوين البريد الإلكتروني الضارة أم لا. ولنفترض أن هذا العنوان ofa‏ إلى الموضعّين Y‏ 
AN tines Ait hal) E Vs‏ ناوي EEE‏ 
العتوان ينمي إلى ley LLM‏ فجن «المحتمل» أن يكون GLE‏ ك يمنا الحزم a‏ 
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ob‏ العنوان موجود في القائمة؛ لأن الموضعّين Y‏ و۷ LIS‏ نتيجة تعيين عناوين أخرى 
وربما تكون الفهارس قد استَخدِمّت أكثر من مرة. ومن 5« عندما نختبر انتماء عنصر ما 
إلى القائمة» فمن المحتمّل LAÍ‏ عرض نتيجة إيجابية خاطئة. ومع ذلك» في حالة عرض 
فهرس مصفوفة بالقيمة ٠‏ كنتيجة لأي دالة تجزئة (تذكّر أنه قد يوجد بوجه عام ۱۷ أو 
YA‏ دالة)ء Éi ala‏ أن العنوان غير موجود في القائمة. 
إن الاك aif ods LCL, Bude DEAD dla!‏ كلما واد pao‏ الصفوقة 
زاد sue‏ الأماكن غير المشغولة. وتضاءلت احتمالية الحصول على نتائج إيجابية زائفة أو 
تطابق غير صحيح. ومن Yall‏ أن حجم المصفوفة يتحدّد بعدد المفاتيح ودوال التجزئة 
المستخدّمة, ولكن لا بد أن تكون المصفوفة كبيرةً Ley‏ يكفي لتوفير عدد من الأماكن غير 
المشغولة يسمح لال لحف بادا وطن يفا عة ول عدد النتائج الإيجابية الزائفة 
إلى الحد الأدنى. 

تتسم عوامل تصفية «بلوم» denal‏ ويمكنها أن pái‏ طريقةً مفيدة LLU‏ 
لاكقفتاف مادك مطلاقات"الافساة"التكنيالية ؛ كدق عامل القضفية هما إذا كان Fake‏ 
معين ينتمي إلى قائمة أو مجموعة معينة أم لاء وعليه» توضّع علاماتٌ على أي معاملات غير 
Saline‏ انها لا تنتمى إلى قائمة معاملاتك المعتادة. على سبيل JEN‏ إذا لم تكن اشتريت 
من قبل معدات تسلق الجبال باستخدام بطاقتك الائتمانيةء فسيضع عامل تصفية «بلوم» 
Eade‏ على عملية شراء حِبّال التسلق هذه بأنها مشبوهة. وعلى النقيض من ذلكء إذا كنت 
قد اشتريت معدات تسلق الجبال من قبل» فسيّحدّد عامل تصفية «بلوم» عملية الشراء 
هذه بأنها Lay‏ تكون مقبولةء ولكن سيظل الاحتمال قائمًا في أن النتيجة زائفة. 

كما يمكن استخدام عوامل تصفية «بلوم» لتصفية رسائل البريد الإلكتروني Bas‏ 
عن البريد العشوائي. وتّعد عوامل تصفية البريد العشوائي مثالا جيدًا على ذلك Ley‏ أننا 
اكلم ا تيمك asia‏ تكن mas‏ :قاذ قن SG‏ إذا كنا wis‏ أن 
تُعامّل رسائل البريد الإلكتروني المشتملة على كلمة mouse‏ على أنها بريد عشوائيء فعلينا 
أن نحدد أيضًا ضرورة التعامل مع أشكال أخرى للكلمة» مثل mOuse‏ أو mou$e‏ على 
أنها بريد عشوائي. في الواقع» نريد التعامل مع كل الأشكال المحتمّلة التي يمكن تعريفها 
للكلمة على أنها بريد عشوائي. سيكون من الأسهل كثيرًا تصفية كل الكلمات التي لا 
Sk SORE peas oF auld, SA Laks eit‏ لوؤي قير فاه sell‏ 
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تستخدّم عوامل تصفية «بلوم» LES‏ لتسريع الخوارزميات الُمستخدّمة في ترتيب 
نتائج استعلامات الويب» وهو موضوع على جانب كبير من الآهمية لأولئك الذين لديهم 
مواقع إلكترونية يرغبون في الترويج لها. 


خوارزمية «بيدج رانك» 


عندما Gar goa‏ على محرك بحث جوجل» Š‏ المواقع الإلكترونية الناتجة حسب 
صلتها بكلمات البحث. يجري محرك بحث جوجل هذا الترتيب في الأساس عن طريق 
تطبيق خوارزمية youd‏ «بيدج رانك» PageRank‏ أي «رُتبة الصفحات». يُعتقد أن 
اسم الخوارزمية «بيدج رانك» قد اختير Ges‏ بلاري sal qin‏ مؤسسي شركة dose‏ 
الذي نشر مقالات» بالتعاون مع الشريك المؤسّس سيرجي برين» عن هذه الخوارزمية 
el‏ نعف حك بخان WENT‏ كانت Bales‏ كوا رس مكنع pgs Was Catal ls‏ 
عن طريق تنزيل شريط الأدوات «بيدج رانك». كانت أداة «بيدج رانك» العامة تعتمد 
على مقياس من ١‏ إلى .٠١‏ وقبل أن يتم حجبهاء GSS‏ من Bis‏ بعض النتائج. إذا 
كتبت عبارة «البيانات الضخمة» في محرك بحث Jose‏ باستخدام الكمبيوتر المحمولء 
تصلني رسالة تخبرني بأنه يوجد «حوالي "١‏ مليون نتيجة (في غضون ٠,٤٤‏ ثانية)» 
ترف wae‏ مقدارها ون Gel‏ هذه aaah Ast‏ بش PEA SUNY‏ ها 
نتيجة البحث الخاصة بموقع ويكيبيديا. GE‏ على البحث عن كلمة «بيانات» عرض 
5000٠‏ نتيجة في غضون ٠,٤١‏ ثانية برتبة olaia‏ مقدارها A‏ ومن الأمثلة 
ys Si‏ التى كانت جميعها برتبة olaia‏ مقدارها ,٠١‏ موقع الحكومة الأمريكية, 
وفيسبوك» وتويترء ورابطة الجامعات الأوروبية. 

يعتمد أسلوب حساب رتبة الصفحات هذا على عدد الروابط المؤدية إلى صفحة ويب 
ماء فكلما زاد عدد الروابطء ارتفعت درجة التقييم» وظهرت الصفحة في مكان أكثر تقدمًا 
ضمن نتائج البحث. ولا يعكس هذا عدد مرات زيارة الصفحة. إذا كنت مصمّم مواقع 
إلكترونية» فإنك ترغب في تحسين موقعك حتى يتصدّر قائمة نتائج البحث بكلمات بحث 
معينة؛ وذلك لأن أغلب الناس لا ينظرون إلى ما هو أبعد من نتائج البحث الثلاث أو 
الأربع الأولى. lias‏ يتطلّب عددًا ile‏ من الروابطء ويؤديء لا محالةء إلى عملية متاجرة 
بالروابط. حاولت جوجل حل مشكلة الترتيب «الزائف» تلك عن طريق تعيين رتبة جديدة 
هى صفر للشركات المتورطة في QAI‏ أو حتى إزالتها ELS‏ من محرك بحث جوجلء إلا 
أن ats‏ ككل الشكة رن السويهذه SSSI‏ عر العمل :قل ARAN‏ وار اوا 
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لم تستبعّد خوارزمية «بيدج رانك» نفسهاء بل أصبحت جزءًا من مجموعة كبيرة من 
برامج الترتيب غير المتاحة للعامة. يعيد محرك بحث جوجل حساب SI‏ بصورة دورية» 
بما يعكس الروابط المضافة وكذلك المواقع الإلكترونية الجديدة. وبما أن خوارزمية «بيدج 
رانك» حسّاسة من الناحية التجاريةء فلا توجد تفاصيل كاملة عنها متاحة للعامة» ولكن 
يمكننا تكوين فكرة عامة عنها بالنظر إلى مثال. تقدّم الخوارزمية das jbo‏ معقدة لتحليل 
الروابط بين صفحات الويب بناءً على نظرية الاحتمالات» حيث تُشير الاحتمالية «واحد» 
إلى اليقين والاحتمالية «صفر» إلى الاستحالة» وكل شيء آخر يحمل قيمة احتمالية تتراوح 
بين هاتين القيمتين. 

لفهم كيفية تحديد S‏ نحتاج أولًا إلى أن نعرف الشكل الذي يكون عليه التوزيع 
الاحتمالي. إذا فكّرنا في نتيجة إلقاء نرد ذي ستة أوجه متساويةء فإن النتائج من ١‏ إلى 
تمل ا اة ايور ale gaa‏ فان كلك مذي 1 LEAT ER‏ 
القائمةٌ التي تتضمّن جميع النتائج المحتملةء بالإضافة إلى احتمالية حدوث كل منهاء 
التوزيعٌ الاحتمالي. 

بالرجوع مرة أخرى إلى مسألة ترتيب صفحات الويب حسب الأهمية؛ لا يمكننا القول 
إن جميعها متساوية من حيث الأهميةء ولكن إذا توافرت لنا طريقة لتعيين الاحتمالات 
لكل صفحة ويبء فمن شأن هذا أن يمنحنا مؤشرًا معقولًا عن مدى أهميتها. إذن» ما 
تفعله خوارزميات على غرار «بيدج رانك» هو أنها تنشئ توزيعًا احتماليًا لشبكة الويب 
بأكملها. لتفسير ذلك» دعونا نتخيّل متصفحًا عشوائيًا للويب يبدأ التصفح من أي صفحة 
ويب ثم ينتقل إلى صفحة أخرى باستخدام الروابط المتاحة. 

سنتناول مثالا Laie‏ يتضمّن موقعًا إلكترونيًا مكوّنًا من ثلاث olaia‏ ويب 
فقطء BigData3, BigData2 sBigDatal „ag‏ لنفترض أن الروابط الوحيدة توجد 
ما بين BigData3, BigData2‏ وما بين BigDatal, BigData2‏ وما بين BigDatal‏ 
BigDatad g‏ يمكن إذن تمثيل هذا الموقع الإلكتروني على النحو الموضّح في شكل F-E‏ 
حيث skill fied‏ صفحات الويب Faig‏ الأسهم (الأضلاع) الروابط. 

لكل صفحة ,443% ears‏ أهميتها أو شيوعها. ستكون صفحة BigData3‏ هي 
الأعلى رُتبة؛ لأن أغلب الروابط تتجه إليهاء ما يجعلها الأكثر gad‏ والآن» لنفترض أن 
Kiai‏ عشوائيًا يزور صفحة ويبء ومتاح له تصويثٌ نسبي بواقع صوتٍ واحد فقط 
للإدلاء ay‏ والذي يُقسّم بالتساوي بين اختياراته التالية من صفحات الويب. على سبيل 
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BigData3‏ ا 
a‏ 


شكل 1-5: رسم بياني موجّه يُمثل جزءًا صغيرًا من الموقع الإلكتروني. 


المثال» إذا كان المتصفح العشوائى يزور BigDatal dado WL‏ فإن الخيار الوحيد 
المتوفر أمامه هو زيارة BigData3 iaia‏ بعد ذلك. caleg‏ يمكننا القول al‏ أجري 
تصويت بواقع صوت saly‏ من قبل BigDatal]‏ لصالح BigData4‏ 

Li‏ روابط في موقع الويب الحقيقي باستمرار؛ ومن ثم لنفترض أننا وجدنا الآن 
أن صفحة BigData3‏ تشتمل على رابط يؤدي إلى صفحة BigData2‏ كما هو موضح في 
شكل t-é‏ إذن ستتغيّر قيمة PageRank‏ لصفحة GY BigData2‏ المتصفح العشوائي 
أصبح لديه الآن أكثر من وجهة للانتقال إليها بعد صفحة BigData3‏ 


BigData2 BigData3 
۱/۲ 
BigDatal 


شكل :٤-٤‏ رسم بياني موجه fled‏ جزءًا صغيرًا من الموقع الإلكترونى مع إضافة الرابط. 


إذا بدأ المتصفح العشوائي في مثالنا الحالي عند صفحة BigDatal‏ وكان الخيار 
sos‏ أمامه هق الانتقال إل صفحة BigData3‏ بعدهاء قان التصويث بأكمله ails:‏ 
صوت واحد ينتقل إلى BigData3‏ وتحصل صفحة BigData2‏ على صفر من الأآصوات. 
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Ll‏ إذا بدأ المتصفح العشوائي عند صفحة BigData2‏ فسيّقسّم التصويت بالتساوي بين 
الصفحتين nal, -BigDatal, BigData3‏ إذا بدأ المتصفح العشوائي عند BigData3‏ 
فسوف ل sse‏ الأصوات SLIS‏ إلى BigData2‏ يعرض جدول 4-4 لحمنا بقيم 
«التصويت» النسبي هذه. 

باستخدام جدول t-é‏ يمكننا أن نرى الآن إجمالي عدد الأصوات الُدلى بها لصالح 
كل صفحة ويب كالآتي: 


إجمالي الأصوات BDI alal‏ هو ۲/١‏ (من قبل (BD2‏ 
إجمالي الأصوات لصالح 822 هو ١‏ (من قبل (BD3‏ 


إجمالي الأصوات لصالح 823 هو ١5‏ (من قبل .(BD2.5 BD1‏ 


جدول 5-:: الأصوات المعطاة لكل صفحة ويب 


نسبة الأصوات slal‏ نسبة الأصوات sall‏ نسية الأصوات المعطاة 
من قبل BDI‏ من قبل BD2‏ من قبل BD3‏ 
لصالح BD1‏ صفر ۲/١‏ صفر 
لصالح 822 ضفن ١ se‏ 
لصالح BD3‏ \ ۲/۱ ضفر 


وبما أن اختيار صفحة البدء يكون iie‏ فإن احتمالية اختيار المتصفح لكل 
صفحة منها يكون متساويًا؛ ومن ثمَّ ثعبن لكل منها رُتبة صفحة مبدئية هي Y/N‏ 
لتحديد رتب الصفحات المرغوب فيها فيما يخص مثالنا الحالي» علينا أن Sh)‏ رُتب 
الصفحات المبدئية حسب نسبة الأصوات المعطاة لكل صفحة. 

على سبيل المثال» حصلت صفحة BDI‏ على ۲/١‏ صوت» أعطته لها صفحة BD2‏ 
aleg‏ فإن رُتبة صفحة BDI‏ هي isd filly .1/١ = ۲/١ × 5/1١‏ رُتبة صفحة 
2 من خلال ۱× ۱= 1/۲ وذتبة 853 من خلال hy Vo eS‏ -1/5. ويما 
أن رُتب الصفحات مجموعها يساوي واحدًاء نلجأ إلى التوزيع الاحتمالي الذي يُحدّد أهمية 
كل صفحة أو رُتبتها. 
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ولكننا سنواجه dude‏ هنا. قلنا سابقًا إِنَّ احتمالية أن يبدأ متصفحٌ عشوائي التصفح 
من أي iaia‏ تساوي sary ."/١‏ خطوة واحدة» حسبنا أن احتمالية بدء المتصفح 
العشواة ئي التصفح من صفحة BDI‏ تساوي .1/١‏ ماذا سيحدث بعد خطوتّين؟ حستاء 
م ارت نستخدم رُتب الصفحات الحالية كأصوات لحساب رُتب الصفحات الجديدة. 
ستكون العمليات الحسابية مختلفةٌ i‏ في هذه aa‏ لأن رتب الصفحات الحالية 
ليست متساوية» ولكن الطريقة لم تتغيّرء ما يعطينا رتب صفحات جديدة كالآتى: زتبة 
صفحة BDI‏ هى 2١7/79‏ 4555 صفحة BD2‏ هى BDI tas ass Awe‏ هى 
ade as AY /é‏ اللقطوات col LSS gf‏ هت قارب الخوارزمية: Wing‏ يعدي أذ 
العملية تستمر على هذا المنوال حتى لا يكون هناك مجال لإجراء أي تغييرات أخرى بناءً 
على أي عمليات ond‏ أخرى. وبعد الوصول إلى الترتيب النهائي» يمكن لخوارزمية «بيدج 
رانك» أن تختار الصفحة ذات الرتية الأعلى لعملية بحث معينة. 
ell‏ بيدج ويرينء في أوراقهما البحثية الأصليةء معادلة لحساب 35 الصفحات» 
تضمّنت معامل تخميد d‏ والذي يُعرّف بأنه احتمالية أن ينقر متصفح ويب عشوائي على 
أحد الروابط في الصفحة الحالية. ومن cad‏ فإن احتمالية عدم نقر متصفح ويب عشوائي 
على أحد الروابط في الصفحة الحالية تساوي (4 - 1)ء ما يعني أن المتصفح العشوائي قد 
انمي ee‏ دن بتكام aa‏ أذ متكي ASANE ES AN‏ فل 
مستوى الموقع الإلكتروني بالكامل عند ١ء‏ بعد إجراء GIS sue‏ من الحسابات التكرارية. 
قال بيدج وبرين إن متوسط رتب الصفحات في موقع إلكتروني مُكوّن من TYY‏ مليون 
رابط تحدّد بعد OY‏ تكرارًا. 


مجموعات البيانات العامة 


ثمّة الكثير من مجموعات البيانات الضخمة المتاحة Glas‏ والتي يمكن أن يستخدمها 
الأفراد المهتمون أو المجموعات المهتمة في مشروعاتهم. siig‏ مؤسسة كومون كراولء 
التي ذكرناها في موضع سابق في هذا الفصلء مثالا على ذلك. تضمّن الأرشيف الشهري 
لمؤسسة كومون كراولء الذي يستضيفه برنامج أمازون لمجموعات البيانات العامة» في 
أكتوبر ٠٠۲۰ء‏ ما يزيد على ٠,٠١‏ مليار صفحة ويب. تتضمّن مجموعات البيانات العامة 
مجموعةٌ كبيرة من التخصّصات. بما في ذلك بيانات الجينوم» وصور الأقمار الصناعية. 
وبيانات الأخبار العالمية. وبالنسبة إلى أولئك الذين من غير المرجّح أن يكتبوا النصوص 
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البرمجية بأنفسهم» ae‏ أداة جوجل للتحليل الإحصائى للكلمات Google Ngram)‏ 
db (Viewer‏ مشوّقة لاستكشاف sue‏ من مجموعات البيانات الضخمة على نحو 
تفاعلي (انظر جزء «قراءات إضافية» لمعرفة التفاصيل). 


نموذج البيانات الضخمة 


رأينا سابقًا بعضًا من طرق الاستفادة من البيانات الضخمةء وتحدَّثنا في الفصل الثانى عن 
البيانات الصغيرة. بالنسبة إلى تحليل البيانات الصغيرةء يمكن استخدام الأسلوب العلمي 
على نحو راسخ تمامًا وينطوي بالضرورة على التفاعل البشري: شخص تتراءى لذهنه 
فكرة ماء ثم يضع ínasi‏ أو نموذجًا É‏ ويبتكر طرقا لاختبار توقعاته. كتبّ alle‏ 
الإحصاء الشهير جورج بوكس عام ۱۹۷۸: «جميع النماذج خاطئةء ولكن بعضها مفيد». 
وما يعنيه بهذه العبارة أنَّ النماذج الإحصائية والعلمية» بوجه ple‏ لا pL‏ تمثيلات 
دقيقةٌ للعالّم من حولناء ولكن يمكن لنموذج فكري جيد أن pi‏ تصوّرًا مفيدًا Lal‏ يجب 
أن تستند إليه التوقعات ويستخرج النتائج بطريقة موثوقة. «Sly‏ كما أوضحنا سابقاء 
فإننا لا ab‏ هذه الطريقة عند التعامل مع البيانات الضخمة. بدلا من ذلك» نجد أن 
السيادة للآلة وليس للعالم. 

Guay‏ توماس كون» في إحدى GLES‏ عام NATY‏ مفهوم الثورات العلمية التي 
oli YS‏ طويلةٌ من العلم العادي عندما يُطوّر نموذج حالي ohay‏ من جميع جوانبه. 
وإذا ظهر GIS sue‏ من الانحرافات التي لا يمكن حلها وتؤدي إلى تقويض أركان نظرية 
قائمة» ما يؤدي بالباحثين إلى فقدان الثقة فيهاء فإن هذا hu‏ «أزمة»» SEs‏ في نهاية 
المطاف بوضع نظرية جديدة أو نموذج فكري جديد. ولكي GH‏ نموذج فكري جديدء 
فإنه لا بد أن Gas‏ عن بعض الأسئلة الإشكالية الوكوية ف النموذج الفكري القديم. 
ولكنء بوجه عامء لا يطمس النموذج الجديد النموذج السابق بالكامل. على سبيل المثالء 
غر التحؤل من ميكانيكا نيوتن إلى النظرية النسبية لأينشتاين من نظرة العلم إلى العالّم 
دون أن يطرح قوانين نيوتن جانبًا: Gils WIL Lhd‏ نيوتن UL‏ خاصة من نظرية 
النسيية الأويسع :نطاقاء fied LS‏ التحول elisa ale yo‏ الكلاسيكى إلى أساليب alas‏ 
البيانات الضخمة 55( us‏ وتجتمع فيه Gyo AAS)‏ الماك A‏ الككر لم coool‏ 
dale‏ قان الأ سفن تدتما تطوين اشاب للتعامل جع هذا الوضع اتيد 5 
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دعونا نتناول أسلوب إيجاد ارتباطات في البيانات الضخمةء والذي يوفر وسيلةٌ للتوقع 
FL,‏ على قوة العلاقات بين المتغيّرات. من المتعارّف عليه في ale‏ الإحصاء الكلاسيكي أنَّ 
الارتباط لا يقتضي السببية. على سبيل JEM‏ قد suc plas Jud‏ مرات غياب sal‏ 
الطلاب عن المحاضرات ودرجات الطالب؛ ومن aà‏ عندما يجد ارتباطًا واضحًا بينهاء قد 
يستخدم غياب الطالب في توقع درجاته. ولكن» لن يكون من الصائب أن يستنتج أن sae‏ 
مرات غياب الطالب سبب في تدني درجاته. لا يمكننا معرفة السبب في ارتباط متغيّرين 
من ن الو إل العمليات الحنبابية ays aN‏ تح فة الف القن قدو عن 
الاستيعاب يميلون إلى التغيّب عن الصف» وربما لا يمكن للطلاب الذين يغيبون بسبب 
Mela teas 0 bya gl ual‏ ا E‏ لديز 
أي الارتباطات مفيدة. 

فيما Gods‏ البيانات الضخمة؛ يؤدي استخدام الارتباطات إلى ظهور مشكلات 
إضافية. فإذا تناولنا مجموعة بيانات هائلة» يمكن كتابة خوارزميات تؤدي - عند 
تطبيقها - إلى عدد كبير من الارتباطات الزائفة» التي تكون مستقلةٌ Glas‏ عن وجهات 
نظر أي إنسان أو of GT‏ فرضياته. Las‏ مشكلات Guus‏ الأرقياظات الؤائقة — je‏ 
سبيل JEI‏ معدلات الطلاق واستهلاك السمن النباتى» وهى أحد الارتباطات الزائفة 
الكثيرة التي تحدّثت عنها وسائل الإعلام. يمكننا أن ae‏ ف Gas‏ هذا الارتياط من 
خلال تطبيق الأسلوب العلمى. ولكن» عندما يصبح عدد المتغيّرات dS‏ يزداد LAÍ‏ 
se‏ الأزتباظات الزافقة. تعد هذه uo]‏ الشكلات الرئيسية plate! ahlat delat!‏ 
معلومات مفيدة من البيانات الضخمة؛ WY‏ عندما Jai‏ ذلك» مثلما هو الحال مع التنقيب 
في البيانات الضخمةء فإننا Sule‏ ما نبحث عن أنماط وارتباطات. وكما سنرى في الفصل 
الخامس» كانت هذه المشكلات هي أحد أسباب فشل توقعات خدمة «اتجاهات الأنفلونزا 


من جوجل». 
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البيانات الضخمة والطب 


غيّر تحليل البيانات الضخمة من مجال الرعاية الصحية إلى 36 كبير. لم تدرك كامل 
إمكانات هذا المجال بعدء ولكنه يشمل التشخيص الطبيء وبالتنبق بالأوبئةء وقياس 
الاستجابة العامة للتحذيرات الصحية الحكوميةء وتقليل التكاليف المرتبطة بأنظمة 
الرعاية الصحية. ولنبدأ بتناول ما أصبح oui‏ اصطلاحًا «معلوماتية الرعاية الصحية». 


معلوماتية الرعاية الصحية 


تُستخدّم الأساليب العامة التي تحدَّثنا عنها في الفصول السابقة في جمع البيانات الطبية 
الضخمة»ء وتخزينهاء وتحليلها. وبوجه ale‏ تستّخدم معلوماتية الرعاية الصحية وفروعها 
المعرفية العديدة» مثل المعلوماتية السريرية والمعلوماتية الحيويةء البيانات الضخمة لتقديم 
dle,‏ مُحسّنة للمرضى وتقليل التكاليف. glas Je‏ تعريف البيانات الضخمة (التي 
ناقشناها في الفصل الثاني) - الحجم» والتنوع» de pully‏ والموثوقية — ونرى كيف 
تنطبق على البيانات الطبية. Giai‏ معيارًا الحجم de pully‏ على سبيل المثال» عند جمع 
البيانات المتعلقة بالصحة العامة عبر مواقع شبكات التواصل الاجتماعي من أجل تتبّع 
مسار الأوبتةء ويتحفّق معيار التنوع عند تخزين سجلات المرضى بالتنسيق النصيء سواءٌ 
أكان هيكليًا al‏ غير هيكلي» وكذلك عند جمع بيانات أجهزة الاستشعار مثل البيانات 
التي Lasisi‏ أجهزة التصوير بالرنين المغناطيسيء ody‏ معيار الموثوقية معيارًا أساسيًا في 
allasai‏ الطبيةء Élie Jag‏ فائقة بإزالة البيانات غير الدقيقة. 

قد تكون وسائل التواصل الاجتماعى مصدرًا قيمًا للمعلومات ذات الصلة في المجال 
الطبيء وذلك من خلال جمع البيانات اه مثل فيسيوك وتويتر والمدوّنات المختلفة, 


البيانات الضخمة 


ولوحات تبادل الرسائل» وعمليات البحث على الإنترنت. يوجد الكثير من لوحات تبادل 
الرسائل التي ترز على موضوعات معينة في مجال الرعاية الصحيةء حيث p‏ ثروة من 
البيانات غير الهيكلية. ciad‏ منشورات على IS‏ من موقعّي فيسبوك وتويترء باستخدام 
أساليب تصنيف مماثلة لتلك التى شرحناها في الفصل الرابعء لرصد تجربة التفاعلات غير 
المرغوية تجاه الأدوية وتزويد مختصي الرعاية الصحية بمعلومات مفيدة بشأن تفاعلات 
الأدوية وإساءة استخدامها. أصبح التنقيب في البيانات عبر وسائل التواصل الاجتماعي» 
Rep‏ الخد ن مكل MON‏ الفا جار wens oom‏ ا ere es‏ 

pba‏ مواقع شبكات التواصل الاجتماعي الُخصّصة العاملين في المجال الطبيء مثل 
gone‏ إنتيليجنسء وهي شبكة طبية عالمية تصف نفسها بأنها «أكبر شركة عالمية في 
E‏ ع اقات الا aN‏ اك ale‏ الصيدية فو و من ie‏ 
المصادر يكتسبونها من التعامل مع أقرانهم. تتزايد شهرة مواقع تقديم المشورة الطبية 
HRM ne‏ ومن ab‏ فإنها تنش المزيه هن المعلومات» ريما تكو مجفوعة «السجلات 
الصحية الإلكترونية» المصدر الأهم بين تلك المواقع؛ وإن كانت إمكانية الوصول إليها غير 
متاحة للعامة. تور هذه السجلات نسخةٌ إلكترونية من التاريخ الطبي الكامل للمريض, 
با ف ذلك النشخيضات dub!‏ والأدوية اللوضوفة: وضون الأشعة الطبية (fio‏ أشعة 
ans]‏ وجو العلوماق cl cg Sh!‏ الضلف (ill‏ مكف E‏ ومن لثم إنشاء 
«مريض افتراضي»» وهو مفهوم سنتناوله لاحقًا في هذا الفصل. بالإضافة إلى استخدام 
الثيانات القكمة ق تخسن زعانة od‏ «وتقليل MISA‏ من JMS‏ جم العاومات 
المتولّدة من مجموعة متنوّعة من المصادر عبر الإنترنت» أصبح من الممكن التفكير في التنيق 
بمسار الأوبئة الحديثة الظهور. 


خدمة اتجاهات الأنفلونزا من جوجل 


تواجه الولايات المتحدة ale US‏ شأن الكثير من الدولء وياء الأنفلونزا الذي يؤدي إلى 
زيادة الأعباء على الموارد الطبية وارتفاع الخسائر في الأرواح. SLs fied‏ الأوبئة السابقة 
المقدّمة من المركز الأمريكى لمكافحة الأمراضء وهو الوكالة المنوطة بمراقبة الصحة العامة 
بالإضافة إلى أساليب Jules‏ البيانات الضخمة» القوة الدافعة لجهود الباحثين الرامية إلى 
التنيق بانتشار الأمراض من أجل تركيز الخدمات والحَدٌ من انتشار هذه الأمراض. 


البيانات الضخمة والطب 


بدأ فريق خدمة اتجاهات الأنفلونزا العمل على التنبق بأويئة الأنفلونزا باستخدام 
بيانات محركات البحث. وانصبٌّ عمله على الكيفية التي يمكن بها التنبق بوباء الأنفلونزا 
الى ف رة وة pail‏ .هما رها Kile‏ بجر كن فكافخة GALA‏ فى dallas‏ 
بياناته. في رسالة شرت في مجلة «نيتشر» العلمية المرموقة في فبراير ۹٠٠۲ء‏ شرح الفريق 
الممكوّن من ستة من مهندسي البرامج لدى شركة جوجل ما كانوا بصدد تنفيذه. إذا أمكن 
استخدام البيانات في التنبق على نحو دقيق بمسار وباء الأنفلونزا السنوي في الولايات 
SOM Saal‏ احتواءٌ المرضء وإنقاذ الأرواح» وتوفير الموارد الطبية. G55‏ فريقٌ جوجل 
إلى فكرة أن هذا الأمر يمكن تحقيقه من خلال جمع استعلامات محركات البحث بشأن 
المخاوف المتعلقة بمرض الأنفلونزا وتحليلها. آلت المحاولات السابقة لاستخدام بيانات 
الإنترنت في التنبق بانتشار الأنفلونزا إلى أحد أمرّين, لا GIG‏ لهما: Lf‏ أنها باءت بالفشلء 
وإنا igus Mee et‏ ولكن من كلذل التملء مرخ SURE‏ السابعة AE‏ 
البحث SLM‏ راود LA‏ شركة dasa‏ ومركز مكافحة الأمراض في نجاح تجربة استخدام 
البيانات الضخمة المتولّدة من استعلامات محركات البحث في تتبع مسار الوباء. 

يجمع مركز مكافحة الأمراضء ونظيره البرنامج الأوروبي لرصد الأنفلونزاء البيانات 
من مختلف المصادرء بما في ذلك الأطباء الذين يقدّمون تقارير بأعداد المرضى الذين 
يعالجونهم ولديهم أعراض شبيهة بالأنفلونزا. ولكنء بحلول الوقت الذي يتم فيه دمج 
هذه البيانات» يكون قد fo‏ عليها Bile‏ أسبوعان» ويكون الوياء قد ازداد انتشارًا. 
باستخدام البيانات الْمجمّعة في الوقت الحقيقى من الإنترنت» كان فريق شركة Jasa‏ 
ومركز مكافحة الأمراض يهدفان إلى تحسين دقة التنبؤات الخاصة بالوباء والتوصل إلى 
نتائج في غضون يوم واحد. ولتحقيق ذلكء ated‏ بيانات حول استعلامات البحث المتعلّقة 
بالأنفلونزاء والتي تراوحت ما بين البحث الفردي على الإنترنت عن طرق علاج الأنفلونزا 
hs EEE‏ الاتسالاه الاقاقفية, Gaal AN‏ راك عدوم اة 
ال Belt‏ جو الول إلى AB Dias‏ من ادات كه هات ا ا 
E E eal ES‏ تاين 
a a‏ اموق اترا دى eaaa ay olds‏ ومن g‏ 
DERE‏ 0 مجموعاتٍ حسب الولاية. iad‏ بيانات مركز مكافحة الأمراض من 
phe‏ مخاطق: تكن كل [gio‏ البهانات التزاكمية من .محهوعة من الولايات de)‏ سبيل 
JN‏ تشمل المنطقة التاسعة ولايات أريزوناء وكاليفورنياء وهاواي» ونيفادا)» zády‏ 
هذه البيانات بعد ذلك في النموذج. 
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البيانات الضخمة 


اعتمدَ مشروع اتجاهات الأنفلونزا من جوجل على النتيجة المعروفة ob‏ ثمّة ارتباطًا 
وثيقًا بين suc‏ عمليات البحث المتعلقة بالأنفلونزا على شبكة الإنترنت وعدد زيارات عيادات 
الأطباء. فإذا كا aS sue Ud g‏ من اللتخاض ي منطفة معينة dylan‏ عن معلومات 
متعلّقة بالأنفلونزا على شبكة الإنترنت» فربما أصبح بالإمكان توقع انتشار حالات الإصابة 
بالأنفلونزا في المناطق المجاورة لها. وبما أن الاهتمام ينصّب على تقدير الاتجاهات, 
أصبح من الممكن تجهيل البيانات؛ ومن AS‏ انتفت ضرورة الحصول على موافقة الأفراد. 
وباستخدام بيانتها التراكمية على مدار خمس سنوات, والتي اقتصرت على الإطار الزمني 
نفسه لبيانات مركز مكافحة الأمراض؛ ومن ثمَّ Ged‏ خلال موسم الأنفلونزا فقطء 
حسبت جوجل معدل التكرار الأسبوعي لكل استعلام من استعلامات البحث الأكثر dési‏ 
البالغ عددُها ٠١‏ مليوئاء التي تغطَّى جميع الموضوعات. ثم قورنت أعداد استعلامات 
eal‏ هذه ينانا مك اة “راك الساصة بالتقلوكراء eta‏ قت SU‏ 
ذات الارتباط الأعلى في نموذج تقدير اتجاهات الأنفلونزا. اختارت جوجل استخدام أول 
£0 مصطلحًا من مصطلحات البحث المتعلقة بالأنفلونزا وأكثرها تكرارًاء ثم تتبّعتها في 
استعلامات البحث التي يُجريها الناس. وعلى الرغم من سرية القائمة الكاملة لمصطلحات 
البحثء فإنها edd‏ على سبيل المثال لا الحصرء «مضاعفات الأنفلونزا»» و«علاج نزلة 
البرد / الأنفلونزا»» و«الأعراض العامة للأنفلونزا». شكلت البيانات التاريخية خطًا مرجعيًا 
ais‏ على أساسه تأثير الأنفلونزا الحالي على مصطلحات البحث المختارة» وبمقارنة بيانات 
الوقت الحقيقي الجديدة بهذه البيانات» وضع على مقياس من ١‏ إلى 0 حيث يعني العدد 


0 الأكثر خطورة. 
استّخْدِمَت خوارزمية «جوجل للبيانات الضخمة» في موسمَى الأنفلونزا للعام 
۲۰۱۲-۱ والعام 5١١-50١“‏ ولكنها فشلت في تحقيق أهدافها. sary‏ انتهاء 


موسم الأنفلونزاء قورنت تنبؤاتها بالبيانات الفعلية مركز مكافحة الأمزاشن: خلال انشا 
النموذج» الذي كان يجدر به أن يكون LES‏ جيدًا لاتجاهات الأنفلونزا المستقاة من 
البيانات المتوافرة» Jue tle‏ حالات الإصابة بالأنفلونزا الذي توصّلت إليه خوارزمية 
«اتجاهات الأنفلونزا من جوجل» llaa‏ فيه؛ حيث فاق Saali‏ الفعلي بنسبة GUL ٠١‏ على 
الأقل خلال الأعوام التي استّخدمّت فيها الخوارزمية. توجد أسباب Bue‏ لعدم تحقيق هذا 
النموذج النجاح المأمول. فقد daca!‏ بعض مصطلحات البحث كمدًا؛ لأنها لم توافق 
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توقعات فريق البحث. والمثال الأشهر والأكثر تداولًا على ذلك هو أن رياضة كرة السلة في 
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البيانات الضخمة والطب 


المدارس الثانويةء التي يبدو أنها لا علاقة لها بالأنفلونزاء كانت رغم ذلك مرتبطة ارتباطًا 
Lids‏ ببيانات مركز مكافحة الأمراضء ولكنها استّبعدَت من النموذج. دائمًا ما fick‏ 
عملية اختيار Aal‏ وهي العملية التي تختار فيها عوامل التنبق الأكثر ملاءمة, مشكلةٌ 
مستعصية؛ ومن ثمَّ فإنها 5505( باستخدام الخوارزميات Mage E Suse‏ 
على سرية التفاصيل الخاصة بخوارزميتهاء مشيرة فقط إلى أنَّ رياضة كرة السلة في 
المدارس car‏ قن cle‏ فمن Ves gel‏ ممظلت das‏ ادما :ویرت امتيعادها 
بتوضيح أن US‏ من الأنفلونزا وكرة السلة يبلغان الحد الأقصى Jód‏ الاستخدام في الوقت 
نفسه من العام. 

كما أشرنا سابقاء استخدمت جوجل خلال إنشاء النموذج الخاص بها £0 مصطلح 
بحث لتكون بمثابة عوامل تنبؤ بالأنفلونزا. ولو أنها استخدمت مصطلح بحث واحدًاء 
ك «الأنفلونزا» على سبيل JEM‏ لكانت معلومات مهمةٌ وذات dha‏ مثل جميع عمليات 
البحث المتعلّقة ب «علاج نزلات البرد»» قد مرّت دون ملاحظة أو توثيق. تزداد دقة gaal‏ 
مع الاستعانة say‏ كاف من مصطلحات البحثء ولكن من الوارد أن تقل LAÍ‏ إذا كان 
عدد مصطلحات البحث أكثر من اللازم. تُستخدّم البيانات الحالية كبيانات تدريبية لإنشاء 
نموذج يمكنه التنبق باتجاهات البيانات المستقبلية» ونظرًا لوجود عدد كبير للغاية من 
عوامل التنيقء لا يُضْمَّن ١‏ البيانات التدريبية للنموذج سوى حالات عشوائية قليلة؛ ومن 
a3‏ فإنه على الرغم من أن النموذج يتوافق جيدًا مع البيانات التدريبية. فإنه لا يمكنه 
تقديم تنبؤات Sue‏ يبدو أن هذه الظاهرة المتناقضةء التى تسمّى «الملاءمة المفرطة», 
لم يضعها فريق العمل في اعتبارهم بما يكنيب ريما كان AP Ean Povo‏ دون 
الثانوية كأحد عوامل التنيق بسبب أنه يتزامن مع موسم الأنفلونزا Wal‏ منطقيًاء إلا أن 
o. aah‏ مليون مصطلح بحث GAT‏ ومع وجود هذا العدد الكبير فإنه SA‏ شبه محتّم أن 
ترتبط مصطلحاتٌ بحث أخرى ارتباطًا وثيقا ببيانات مركز مكافحة الأمراضء ولكنها 
لن تكون ذات صلة باتجاهات الأتفلونزا. 

يتردّد على عيادات الأطباء أشخاصٌ يعانون أعراضًا شبيهة بالأنفلونزاء إلا أن 
التشخيص We‏ لا يكون الإصابة بالأنفلونزا (ربما يكون - bo‏ — نزلة برد عادية). 
أفرزت البيانات التي استخدمتها جوجل» وجمعتها على نحو انتقائي من استعلامات 
محرّك البحثء نتائج غير سليمة من الناحية العلمية جراء التحيّز الواضح» الذي نتج 
- على سبيل المثال - من استبعاد Gs JS‏ لا يستخدمون أجهزة الكمبيوتر Sy‏ مَن 
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البيانات الضخمة 


يستخدمون محركات بحث أخرى. Lady‏ مشكلة أخرى ريما ساهمت في هذه النتائج غير 
الدقيقة» وهي أن العملاء الذين يبحثون في محرك بحث Jass‏ عن «أعراض الأنفلونزا» 
وهنا كصههوا ب الفعل عددًا من المواقع الإلكترونية المتعلقة بالأتفلونزاء مما sil‏ إلى حساب 
مرات استخدام هذا المصطلح وحده من مصطلحات البحث أكثر من مرة؛ ومن ثم isl‏ 
إلى تفاقم الأعداد. Egle‏ على ذلكء يتغيّر سلوك البحث بمرور الوقتء لا سيّما في فترات 
تفشي الأوبئةء ولا بد من وضع هذا الأمر في الاعتبار عن Gob‏ تحديث النموذج بصفة 
دورية. عندما fas‏ أخطاء التنبق في الظهورء فإنها تميل إلى التتابع» وهذا ما حدث مع 
تنبؤات «اتجاهات الأنفلونزا من جوجل»: انتقلت أخطاءًٌ أسبوع ما إلى الأسبوع الذي يليه 
دُرسَت استعلامات البحث LS‏ ظهرت بالفعل» ولم تَصدّف في مجموعات حسب الهجاء 
أو الصياغة. وكان المثال الذي daii‏ جوجل على ذلك هو أن YS‏ من عبارات «دلائل 
الأنفلونزا»» و«الدلائل على الأنفلونزا»» و«الدلائل على مرض الأنفلونزا» قد أحصي OS‏ منها 
على حدة. 

تعرّض البحثء الذي يرجع تاريخه إلى موسم Y + A-Y V‏ للكثير من الانتقاداتء 
التى كان بعضها متحاملًا. إلا أن الانتقادات كانت تتعلّق Bole‏ بافتقار الشفافية» على سبيل 
كال وقي ااك عن كل مهات ال الختارة AEG‏ عق BEEE‏ 
المقدّمة من المجتمع الأكاديمي للحصول على معلومات. إن بيانات استعلامات محرك 
gL coal al‏ تجربة إحصائية مخطّطةء كما أنَّ إيجاد طريقة لتحليل هذه البيانات 
على نحو soe‏ واستخراج معلوماتٍ مفيدة منها sad‏ مجالًا جديدًا Eley‏ بالتحديات 
قد يستفيد من التعاون. في موسم ۲۰۱۲-۲۰۱۲ أدخلت dasa‏ تغييرات BAS‏ على 
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خوارزمياتهاء وبدأت في استخدام أسلوب رياضي جديد نسبيًا يُسمّى «إلاستيكنت»؛ أي 
الشبكة المرنة» والذي يوفر lwg‏ دقيقة لاختيار عوامل التنبق اللازمة وتقليل ere‏ 
ale‏ ۲۰۱۱ء بدأت dasa‏ مشروعًا Shes‏ لخدن مسار حل الح ولكنها لم 423 تنشر 
تنبؤاتٍ حيالهاء a3 2١1١6 pleg‏ إيقاف مشروع اتجاهات الأنفلونزا من جوجل. ولكنها 
أصبحت الآن تشارك بياناتها مع الباحثين الأكاديميين. 

قدّم مشروع اتجاهات الأنفلونزا من جوجلء إحدى المحاولات الأولى لاستخدام البيانات 
a a‏ ا مفيدة للباحثين الذين شرعوا في عملهم بعد هذا المشروع. 
وعلى الرغم من | وي المشروع لم ترق لمستوى التوقعات» فمن الوارد فيما يبدو أن 
تظهر في المستقبل طرق أفضلء وعندئذ ستتحقق الإمكاناث الكاملة للبيانات الضخمة في 
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مجال تتبع مسار الأوبئة. أجريت إحدى هذه المحاولات على يد فريق من العلماء من مختبر 
لوس الاقوس اتون ف" اتويات اة ان UU‏ مق موسوعة رك ونا 
فريق دلفي البحثي في جامعة كارنيجي ميلون بتحدي مركز مكافحة الأمراض تحت 
Gy oleae‏ بالاتقلورة ام عق فلوست VN OCS‏ ومع 1١ل SAA‏ أفضل شرا 
التنبق. نجع الفريق في استخدام oly‏ من dasa‏ وتويتر وويكيبيديا لمراقبة حالات تفشي 
الأنفلونزا. 


تفشي وباء الإيبولا في غرب أفريقيا 
és‏ العالم قديمًا الكثيرَ من الأوبئة؛ فقد قتلت الأنفلونزا الإسبانية ١١۹۱۹-۱۹۱۸ ale‏ 
Ou Galt Le‏ ۲ يموع sue lon] Lay dau‏ الإصابات وها gad‏ + +0 مليوة 
نسمة. كانت المعلومات المتوافرة عن الفيروس قليلةٌ LLU‏ ولم يكن هناك علاج مجدء 
وكانت استجابة الصحة العامة محدودةء وهو Sal‏ يرجع بلا شك إلى نقص المعرفة. تغبّر 
هذا "لوقنم AEA ple‏ بالافضاع الرس Lil‏ الضحة العالمية: الي cigs‏ منمكولية 
Geta Mata cael dial‏ مو كلدل التماون SACU N EERE‏ 
من أغسطس عام ۲٠٠١‏ في اجتماع هاتفي عن بُعد للجنة الطوارئ العنيّة باللوائح 
اكب A EEEE‏ الضحة Ullal‏ أن تف الو GQ‏ شري أقريقنا امنيح 
يدك و eae Ba Gyles‏ :فقا iy‏ ا ادرت الذي )دنه وني 
الصحة العالمية لهذه العبارة» فإِنَّ تفشي الإيبولا قد شكّل SLE) Ésa»‏ يستوجب 
جهودًا دولية غير مسبوقة لاحتوائه؛ ومن a5‏ تفادي حدوث وباء. 

طَرَّحَ تفشي الإيبولا في غرب أفريقيا في ٤٠٠۲ء‏ الذي اقتصر في الأساس على دول 
غينيا وسيراليون وليبيرياء مجموعة مختلفة من المشكلات مقارنة بمشكلات تفشي وياء 
الأنفلونزا السنوي في الولايات المتحدة. كانت البيانات التاريخية عن فيروس الإيبولا Le)‏ غير 
موجودة Glg‏ غير مفيدة؛ لأنه لم Jud‏ من قبل تفش بهذا الحجم لهذا الفيروسء وعليهء 
ظهرت الحاجة لوضع استراتيجيات جديدة للتعامل dao‏ وعلى ضوء معرفة تحركات 
السكان الى من شانها أن تساعن العاملين ف .محال الضحة العامة d‏ مرافة SGA‏ 
E‏ أنه يدكن EE‏ لمات الس aS REGO A EEE‏ 
في متابعة حركات السفر في المناطق الموبوءة وتطبيق إجراءات» على غرار فرض قيود 
على السفرء من شأنها أن تحتوي الفيروس؛ ومن ثم إنقاذ الأرواح. كان من المفترض في 
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نموذج التفشي في الوقت الحقيقي الناتج أن Tay‏ بالأماكن التي عل ol ea Nii‏ ينقد 
فيها r‏ بعد ذلك» ومن ab‏ تركيز الموارد i‏ لذلك. 

نَّ المعلومات الرقمية التي يمكن جمعها من الهواتف المحمولة أولية cha:‏ الي 
رقم هات Gas‏ المتصل ty Jail‏ وموقع تقريبي للمتصل؛ فالاتصالات التي جر 
باستخدام الهاتف المحمول :د تُنشئ Lae‏ يمكن استخدامه في تقدير موقع ne ec‏ 
برج الاتصالات المستخدّم لكل ا فرص الوصول إلى هذه البيانات عددًا من المشكلات: 
شگلت مسائل الخصوصية هاجسًا fais‏ حقيقيًا؛ نظرًا لإمكانية الاستدلال على الأشخاص الذين 
لم يوافقوا على 225 مسار pages‏ وتحديد هويتهم. 

في بلدان غرب أفريقيا التي مُنيّت بتفشي الإيبولاء لم تكن كثافة استخدام الهواتف 
المحمولة متماثلةء حيث Jal fk‏ النسب في المناطق الريفية الفقيرة. على سبيل المثالء 
كان ما je‏ قليلًا عن نصف العائلات في ليبيريا وسيراليون عام Laag VO VY‏ دولتان من 
الدول التي تأثرت تأثيرًا مباشرًا بتفشي الإيبولا عام ٤٠٠۲ء‏ لديه هواتف محمولة» ومع 
ذلك كانت الإيانات الذي قدّموها كافيةٌ لتتبع حركة سكان الدولتّين على نحو مفيد. 

أعنظطيت بعض البيانات التاريخية التي جرى جمعها من الهواتف المحمولة إلى 
مؤسسة فلومايندرء وهي مؤسسة غير ربحية مقرّها اوي تُكرّس نشاطها للتعامل مع 
البيانات الضخمة بشأن مشاكل الصحة العامة التي تؤثر في دول العالم ASU)‏ فقرًا. عام 
Ye tA‏ كانت مؤسسة فلومايندر Jof‏ جهة تستخدم بيانات شركات اتصالات الهواتف 
المحمولة في ais‏ حركة السكان في بيئة حافلة بالتحديات الطبية» وذلك ضمن مبادرة 
أطلقتها منظمة الصحة العالمية للقضاء على مرض الملاريا؛ ومن ثم كانت أحد الاختيارات 
البديهية للتعامل مع أزمة الإيبولا. استخدم فريق Uys‏ بارز البيانات التاريخية المجَهلة في 
وضع خرائط لحركة السكان في المناطق الموبوءة بالإيبولا. لم تكن هذه البيانات التاريخية 
مُستخدّمةٌ على نطاق واسع؛ نظرًا لتغيّر سلوكيات السكان في فترات الأويئةء إلا أنها أعطت 
مؤشراتٍ قوية عن الأماكن التي سيميل الناس إلى السفر إليها في حالات الطوارئ. وتُقدّم 
سجلات نشاط أبراج الهواتف المحمولة تفاصيل عن أنشطة السكان في الوقت الحقيقي. 

ومع ذلك» جاءت أرقام تنبؤات تفشي الإيبولا التي نشرتها منظمة الصحة العالمية 
أعلى Le‏ يزيد عن ٠٠‏ بالماكة من الحالات المسكّلة Glas‏ 

تشابهت المشكلات الخاصة بتحليلات اتجاهات bigl‏ من جوجل والإيبولا 3 3 
خوار زميات التنبق المستخدّمة في كليهما كانت تعتمد فقط على البيانات الأولية» ولم تأ 
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اعارا اوو Spat)‏ ی كن بن هد الو كين صنق اما ا عدن 
حالات الإصابة سيواصل الارتفاع بالمعدّل نفسه في المستقبل مثلما Gas‏ قبل بدء التدخل 
الطبي. ومن الواضح أنه كان يُتوقع أن تكون للتدابير الطبية وتدابير الصحة العامة 
S186‏ إيجابيةء ولكنها لم تَضمّن في النموذج. , 

سملت Ugh‏ إصابة بفيروس زيكاء الذي تنقله البعوضة الزاعجة» عام ۱۹٤١‏ في 
أوغنداء ثم انتشر بعيدًا عن مكان الإصابة الأولى ليصل إلى آسيا والأمريكتين. 6S)‏ تفشي 
فيروس زيكا الحاليء الذي بدأ في البرازيل عام ٠٠٠٠١‏ إلى ظهور حالة أخرى من طوارئ 
الصحة العامة التي تثير قلقا دوليًا. كانت US‏ دروس مستفادة من العمل الذي قام 
به مشروع اتجاهات الأنفلونزا من جوجل وخلال تفشي الإيبولاء تتعلّق بإعداد النماذج 
الإحصائية باستخدام البيانات الضخمةء وأصبح من GEM‏ عليه عمومًا الآن ضرورة جمع 
البيانات من مصادر متعدّدة. ولعلك تتذكّر Gf‏ مشروع اتجاهات الأنفلونزا من Jase‏ 
ka>‏ البيانات من محرك Say‏ جوجل فقط. 


زلزال نيبال 

Le «gil‏ مستقيل تتح .مسار الأويكة باستخذام البيائات Weal‏ استخ دمع خضائص 
الوقت الحقيقي لسجلات تفاصيل مكالمات الهواتف المحمولة في المساعدة في مراقبة 
حركة السكان خلال الكوارثء مثلما حدث خلال زلزال نيبال وتفشي أنفلونزا الخنازير في 
المكسيك. على سبيل المثال» استخدم فريق Us‏ تابع لمؤسسة فلومايندرء بالإضافة إلى علماء 
من Saale‏ سا امون وأكتفورن: cluuage ge Lad‏ ق. الولايات: Biol‏ رال 
بعد زلزال نيبال الذي ais‏ في الخامس والعشرين من أبريل عام Y No‏ سجلات تفاصيل 
مكالمات الهواتف المحمولة في تقديم تقديرات لحركة السكان. نسبة كبيرة من سكان 
نيبال لديهم هواتف محمولةء وباستخدام البيانات phe SY KÍ‏ مليون مشترك في 
ee‏ تكن اكرول E‏ :قا Kos:‏ ينكان apd bs INE.‏ 
وقوع الزلزال. ترجع هذه الاستجابة day pull‏ في جزء منهاء إلى وجود اتفاق سار مع 
قرز القدمة ی ا Selly Sigel‏ 
فط Ge‏ وفوخ الكاركة..ونكدًا لوجونخادم محضهن ALS‏ السخة التخؤينية' tagi‏ 
الصلب ٠١‏ تيرابايت في مركز بيانات مزوّدي الخدمةء تمن الفريق من بدء العمل على 
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gail‏ ما dl‏ إلى إتاحة المعلومات أمام مؤسسات BEY‏ من الكوارث في غضون تسعة 
ايام فقط من وقوع الزلزال. 


البيانات الضخمة والطب الذكى 


في كل مرة يزور مريض Sule‏ طبيب أو مستشفى» تُجِمّع SULy‏ إلكترونية بصفة 
روتينية. AS‏ السجلات الصحية الإلكترونية الوثيقة القانونية لجهات اتصال الرعاية 
الصحية الخاصة بالمريض؛ ذلك حيث Jai‏ تفاصيلٌ على غرار التاريخ الظبئ للمريض: 
والأدوية الس زات التخوضاك.. ومن الؤارد Ll‏ أن متسل nasai esaad‏ 
الإلكترونية بيانات أجهزة الاستشعار» مثل فحوصات التصوير بالرنين المغناطيسي. وقد 
تجهل البيانات وتَحِمّع لأغراض بحثية. كانت هناك تقديرات تشير إلى أنه بحلول عام 
jak ¥- V0‏ الستشفى العادية ق الولقاتك الكهدة ما بز عق cabs Ves‏ من 
البيانات» أغلبها بيانات غير هيكلية. وكان السؤال كيف يمكن التنقيب في هذه البيانات 
للحصول على معلومات من شأنها تحسين رعاية المرضى وتقليل التكاليف؟ ما حدث 
باختصار أننا Gast‏ البيانات» سواءً الهيكلية أو غير الهيكلية» وحدّدنا السمات ذات الصلة 
بمريض أو مجموعة من المرضى» واستخدمنا GIL‏ الإحصائية على غرار التصنيف 
والانحدار في إعداد نموذج بالنتائج. aas‏ الملاحظات الخاصة بحالة المرضى بصفة 
أساسية بالتنسيق النصي غير الهيكيء ولتحليل هذه الملاحظات على نحو LE‏ يتطاّب 
اهو ج dike ALN CGP‏ ا "من قبل نظام والسون 
من شركة آي بي cal‏ والذي Shai‏ عنه في الجزء التالي. 

طبقًا لشركة آي بي cel‏ كان المتوقع بحلول عام ۲٠٠١‏ أن تتضاعف كمية البيانات 
الطبية VY US‏ يومًا. ومع تزايد استخدامها في مراقبة الأصحاءء أصبحت الأجهزة القابلة 
للارتداء تُستخدّم على نطاق واسع في حساب sse‏ الخطوات التي نخطوها US‏ يوم وقياس 
احتياجاتنا من السعرات الحرارية وموازنتهاء ومتابعة أنماط النوم لديناء وكذلك تقديم 
معلومات فورية عن معدل نبضات القلب وضغط aall‏ بعد ذلك تَرفَع المعلومات akali‏ 
على أجهزة الكمبيوتر وتثحفظ السجلات على نحو خاص» أو - كما هو الحال أحيانًا — 
تجري مشاركتها طوعًا مع أصحاب العمل. سيوفر هذا التتابع الواقعي للبيانات المتعلّقة 
بالأفراد للعاملين في مجال الرعاية الصحية بيانات És‏ عن الصحة العامة» كما sigue‏ 
وسيلةٌ لملاحظة التغييرات التي تطرأ على الأفراد والتي قد تساعد في iss‏ الأزمات القلبيةء 
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على سبيل المثال. كما GF‏ البيانات المتعلّقة بفتات السكان ستمكن الأطباءَ من تتيّع الأعراض 
الجانبية لدواء معينء على سبيل cli; SGM‏ على خصائص المرضى. 

بعد اكتمال مشروع الجينوم البشري عام 22٠٠“‏ تزايدت أهمية البيانات الوراثية 
بوصفها جزءًا من السجلات الطبية للأفرادء كما eddie‏ 85,8 من البيانات البحثية. كان 
الهدف من مشروع الجينوم البشري وضعٌ خريطة بكل الجينات البشرية. يُطلّق على 
المعلومات الوراثية للكائن الحي مجتمعة اسم الجينوم. يحتوي الجينوم البشريء Lea!‏ 
على حوالي ٠١‏ ألف جينء ويتطلّب وضع خريطة لهذا الجينوم نحو ٠٠١‏ جيجابايت 
من البيانات. مما لا شك فيه Sf‏ هذا المجال من أبحاث الوراثة هو مجالٌ شديد التعقيد 
والتخصّص والتشعُّبء إلا أن النتائج المترتبة على استخدام أساليب تحليل البيانات الضخمة 
تسترعي الاهتمام. ومن ثم حُفظت المعلومات التي جُمعّت عن الجينات في قواعد بيانات 
کو مقا وت alas lots‏ تغرف هذه وا 
hi‏ إلى تحديد هُويات المرضى الذين ساهموا بحمضهم النووي. piis‏ اقتراح بأنه. 
لأغراض diel‏ يجب إضافة معلوماتٍ زائفة إلى قواعد البيانات» وإِنْ كانت ليست بالقدر 
الذي من شأنه أن يؤثر على SLA‏ الطبية. ازدهرّ Slee‏ المعلوماتية الحيوية المتعدّد 
التخصّصات بسبب الحاجة إلى إدارة البيانات الضخمة الناتجة عن ple‏ الجينوم وتحليلها. 
وتزايدت de pw‏ التسلسل الجيني وقلّت تكلفثه GSS‏ خلال السنوات الأخيرة؛ ومن ثم 
أصبح الآن وضعٌ خرائط لجينوم الأفراد أمرًا ممكنًا من الناحية العملية. مع وضع تكاليف 
Vo‏ عامًا من الأبحاث في الاعتبار» بلغت تكلفة تحديد تسلسل الجينوم البشري الأول ما 
يقارب Y‏ ملايين دولار. وبدأت الكثير من الشركات الآن في عرض خدماتها في مجال تحديد 
تسلسل الجينوم على الأفراد بأسعار معقولة. 

تفرّع من مشروع الجينوم البشري مشروع الإنسان الفسيولوجي الافتراضي الذي 
يهدف إلى إنشاء عروض تقديمية على أجهزة الكمبيوتر تتيح للأطباء السريريين محاكاة 
طرق العلاج الطبي وتحديد الأنسب منها لكل مريضء وتقوم على البيانات المستقاة من 
بنك ile‏ لبيانات مرضى فعليين. ويمقارنة هذه البيانات بأعراض of Blas‏ تفاصيل 
طبية ذات صلةء يمكن للنموذج wall‏ باستخدام Foes‏ أن ن Gay‏ بالنتيجة المرجّحة التي 
تتضمّن طريقة علاج لمريض بعينه. علاوةً على ld‏ تستخدّم أساليب التنقيب في البيانات 
التي يمكن دمجها مع عمليات المحاكاة الحاسوبية لإضفاء طابع شخصي على طرق العلاج 
الطبية حسب كل مريض؛ ومن ثم يمكن دمج نتائج التصوير بالرنين المغناطيسي في أي 


v4 


البيانات الضخمة 


محاكاة منها. وهكذاء يُتوقع أن يحتوي المريض الرقمي المستقبلي على جميع المعلومات 
التي تخصٌ مريضًا Gls‏ والتي تَحدَّثْ Ub‏ لبيانات الأجهزة الذكية. Kay Sly‏ أمن 
البيانات Goad‏ كبيرًا على نحو متزايد أمام المشروع. 


استخدام نظام واتسون 3 الطب 


عام -V‏ + 2558 شركة آي بي al‏ أن تنشئ جهاز كمبيوتر cla‏ به أقوى الشركات 
المنافسة ها في برنامج المسابقات «جيوياردي», الذي يُعرّض على شاشة التلفزيون 
الأمريكي. وضع واتسون»ء وهو نظام لتحليل البيانات الضخمة Gas pou‏ نمؤسنن :شركة 
آي بي vel‏ توماس جون واتسونء في مواجهة Sil‏ من أبطال برنامج جيوباردي: براد 
روتر» صاحب سلسلة فوز متتالية بلغت Bye VE‏ وكين جينينجزء الذي حصدَ 4 إجمالي 
مبلغ ۲,۲٣‏ ملايين دولار أمريكي. جيوباردي هو eke‏ مسابقات يعطي فيه مضيفٌ 
البرنامج «إجابة»» وعلى المتسابق أن Gada‏ «السؤال». تجرَى المسابقة بين ثلاثة متسابقينء 
درخ الإجاباك أي es pa LNAI‏ قات عل قران اللوم :والرياضة: وتار 
العالم إلى جانب olii‏ غير مألوفة أو غريبةء مثل «قبل ويعد». على سبيل JU‏ إذا كان 
دليل الإجابة: «يوجد salà‏ قبره في فناء كنيسة هامبشاير ومكتوبٌ عليه: فارس» ووطنيء 
وطبیب» وأديبء gale YY‏ ۷-۱۸۹ يوليى AATE‏ فستكون الإجابة: Gd‏ هو السير آرثر 
كونان دويل؟». By‏ الفئة الأقل وضوحًا «اقبض على هؤلاء الرجال»» إذا كان دليل الإجابة: 
«مطلوب القبض عليه في 15 جريمة قتلء 55 هذا daoll‏ المولود في بوسطن عام 21155 
وألقي القبض عليه أخيرًا في Gilu‏ مونيكا عام VV‏ فستكون الإجابة: ohr‏ هى وايتي 
بولجر؟» 253d‏ أدلة الإجابة؛ التي edd‏ إلى واتسون في صورة نصوص ورموز صوتية 
وفرئية من المسابقة. i‏ 

KS معالجة اللّغات الطبيعيةء كما 5 تعرّف في مجال الذكاء الاصطناعيء تحديًا‎ ÉS 
لعلوم الكمبيوترء وكانت ضروريةٌ لتطوير نظام واتسون. وعطفا على ما سبق» يجب أن‎ 
هذا الأمر مشكلةٌ في‎ Kag تكون المعلومات قابلةٌ للوصول إليها واسترجاعها بسهولةء‎ 
بجيو اردع‎ las ANOLE ul ESSN قزري‎ Noval els ies 
الْمحدّد في الدليل. في المثال الثاني‎ GLY طبقًا لنوع الإجابة المعجميء» الذي يُصنَّف نوع‎ 
المثال الأول فلا يوجد‎ LT الذي ذكرناه» نوع الإجابة المعجمي هو «المولود في بوسطن».‎ 
ألف دليل‎ ٠١ الضمائرُ هذه العملية كثيرًا. وبتحليل‎ ai فيه نوع إجابة معجمي؛ إذ لا‎ 


البيانات الضخمة والطب 


إجابة» عثر فريق آي بي al‏ على ٠٠٠٠‏ نوع إجابة معجمي فريدء إلا أن هذا العدد لم 
bas‏ إلا حوالي نصف أدلة الإجابة فقط. بعد ذلكء يُحلّل دليلٌ الإجابة لتحديد الكلمات 
الرئيسية والعلاقات بينها. وتسترجّع المستنداث ذات الصلة من بيانات الكمبيوتر الهيكلية 
وغير الهيكلية ويُبِحَث فيها. وتُوضَع فرضياتٌ بناءً على التحليلات Asal)‏ وبالبحث في 
أدلة إجابة أكثر fab like‏ على الإجابات المحتمّلة. 
للفوز بمسابقة جيوبارديء كان لا بد من استخدام الأساليب السريعة المتطوّرة 
قينا ن ا اللعات اله ود لآلةء والتحليل الإحصائي. وكان من بين 
الحوامل؟ الک الوا رايا ال ا ار اف وات معان اة الو 
باستخدام بيانات الفائزين السابقين. وبعد عدة محاولات» all cle‏ في صورة تحليل 
عميق للأسئلة والأجوبة» gl‏ ما outs‏ «ديب كيو إيه»» وهو عبارة عن دمج للكثير من 
أساليب الذكاء الاصطناعي. يستخدم هذا النظامُ egoana‏ كبيرة من أجهزة الكمبيوتر» 
التي تعمل بالتوازي ولكنها ليست متصلة بالإنترنت» ويعتمد على الاحتمالية وبراهين 
الخبراة. بالإضافة إل التوصل ]إل lal‏ يستخدم واتنمون خوارزميات حساب كه الثقة 
لإتاحة إمكانية العثور على أفضل نتيجة. ولا يُشير واتسون إلى أنه جاهز لإعطاء الإجابة 
إلا عندما يصل إلى حَد الثقة chall‏ وهو ما يكافئ ضغط المتنافس البشري على زر 
الجرس. تمن واتسون من هزيمة fbi‏ جيوباردي. واستشهد بمقولة Gate‏ الذي 
تقبّل الهزيمة بصدر رحبء حيث قال: «من جانبىء فأنا aA Í‏ بسادتنا الحُدد من أجهزة 
الكمبيوتر». l‏ 
يسترجع نظام واتسون الطبيء القائم على نظام واتسون الأصلي الخاص بمسابقة 
جيوبارديء YS‏ من البيانات الهيكلية وغير الهيكلية ويحللها. وبما أنه يبني قاعدة 
المعارف الخاصة به duds‏ فإنه بالأساس نظام dade coped‏ لعمليات التفكير البشري 
في مجال معين. تعتمد التشخيصات الطبية على كل المعلومات الطبية المتوافرة» والتي 
تكون É‏ بالأدلة ودقيقةٌ إلى USN‏ الذي تكون معه المدخلات is‏ ومتسقة وتتضمّن 
جميع المعلومات ذات الصلة. يتمنَّع FLEW‏ البشريون بالخبرة» ولكنهم غير معصومين 
من الخطأء وبعضهم بارع في التشخيص أكثر من غيره. تشبه هذه العملية الآلية المتبّعة 
في نظام واتسون الخاص بمسابقة جيوباردي» حيث S55‏ الاعتبار جميع المعلومات 
ذات الصلة وتّعطّى التشخيصات مع تحديد درجة ثقة JS!‏ منها. وتسمح تقنيات الذكاء 


A\ 


البيانات الضخمة 


الاصطناعي Gaal)‏ في نظام واتسون بمعالجة البيانات الضخمة: بما في ذلك الكميات 
الهائلة الناتجة عن التصوير التشخيصي الطبي. 

Stes نزت الات وحدق‎ (les Cle عة‎ outils spas qual 
يشارك واتسون في الجهود الإنسانيةء ويحدث هذا - على‎ wild علاوة على‎ la تجاريًا‎ 
خصوصًا للمساعدة في تتبّع‎ sb سبيل المثال - من خلال نظام تحليلاتِ مفتوح المصدر‎ 
انتشار الإيبولا في دولة سيراليون.‎ 


خصوصية البيانات الطبية الضخمة 


تأكّدَ بوضوح أن البيانات الضخمة لديها القدرة على التنبق بانتشار الأمراض وتخصيص 
طرق العلاج» ولكنء ماذا عن الوجه الآخر للعُملة: خصوصية البيانات الطبية للأشخاص؟ 
مع تزايد استخدام الأجهزة القابلة للارتداء وتطبيقات الهواتف الذكية على وجه الخصوص» 
طرأت أسئلة على غرار مَن يملك البيانات» وأين OSa‏ ومّن يمكنه الوصول إليها 
واستخدامهاء وما مدى تأمينها ضد الهجمات الإلكترونية عبر الإنترنت. AS‏ الكثير من 
القضايا الأخلاقية والقانونية التى لن يسعنا تناولها في هذا الكتاب. 

قد تصبح البيانات الضادرة من أحد أجهزة متايعة اللياقة البدنية متوافرةً لأحد 
أصحاب العمل وتُستخدّم: إِمّا بصورة إيجابية» مثل تقديم Gl olge‏ يستوفون معايير 
معينة» Glg‏ بصورة Aisle‏ مثل تحديد أولتك الذين يُخفقون في تلبية المعايير As glial!‏ 
الأمر الذي قد يؤدي إلى تسريح العمالة غير المرغوب فيها. في سبتمبر YNN‏ نشر فريق 
أبحاث مشتركء مُكوّن من slale‏ من جامعة دارمشتات للتكنولوجيا في ألمانيا وجامعة 
بادوا في إيطالياء نتائج دراسة أجرّوها على Gel‏ بيانات أجهزة متابعة اللياقة البدنية. 
المقلق في الأمر أنه من بين Ble ١1‏ خضعٌ للاختبار» جميعها من مُصتّعين مختلفين» لم 
يكن GI‏ منها Lage‏ بما يكفي لإيقاف التغييرات الجاري إدخالها على البيانات» وأربعة 
أجهزة فقط هي التي اف إجراءات للحفاظ على موثوقية البيانات» وتمكّن أعضاءً 
الفريق من تجاوزها جميعًا. 

في سبتمبر 5011 بعد دورة GLA‏ الأولبية في ريو دي جانيروء والتي تقرّر 
حظر معظم الرياضيين الروس منها بعد تقارير digs‏ عن برنامج لتعاطي المنشطات 
تديره الدولة» تعرّضت السجلات الطبية لرياضيين OLS‏ من agin‏ الشقيقتان ويليامزء 
وسيمون GLL‏ وكريس فروم» للاختراق» وتم الكشف Úle lgie‏ بواسطة مجموعة من 


AY 
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قراصنة الإنترنت الروس على موقع .FancyBears.net‏ لم تكشف هذه السجلات الطبيةء 
التي كانت في حوزة الوكالة العالمية لمكافحة المنشطات (المعروفة ب «وادا») على نظام 
إدارة البيانات الخاص بها الذي يُدعَى «أدامز» (نظام إدارة وتنظيم مكافحة المنشطات)» 
سوى استخدامات استثنائية لأغراض علاجيةء وعليه فهي لم Ge GF OS‏ الرياضيين 
الذين تعرّضوا للتنمّر الإلكتروني. ومن المرجّح أن الاختراق الأولي لنظام إدارة وتنظيم 
مكافحة المنشطات تمَّ بواسطة حسابات رسائل البريد الإلكتروني للتصيد Soll‏ يُستخدّم 
هذا الأسلوب» الذي يبدو فيه أن رسالة إلكترونية مُرسلة من مصدر كبير موثوق dals‏ 
المؤسسةء مثل piia‏ خدمة الرعاية الصحيةء إلى عضو أحدث من المؤسسة ذاتهاء للحصول 
على نحو غير قانوني على معلومات حسّاسة على غرار كلمات المرور وأرقام الحسابات عن 
طريق برنامج ضار يتم تنزيله. 

gual‏ تحصين قواعد البيانات الطبية الضخمة ضد الهجمات الإلكترونية» وما يترتب 
عليه من ضمان خصوصية المرضىء هاجسًا متناميًا. يجوز قانونًا a‏ البيانات الطبية 
الشخصية Algal‏ ولكن من الممكن في بعض الأحيان تحديد هُويّات المرضى. في ممارسة 
قيمة تهدف إلى الكشف عن الثغرات الأمنية في البيانات التى من المفترض أن تكون آمنةء 
تمگنت عالمتان من مختبر هارفارد لخصوصية البيانات, هما لاتانيا سويني وجي سو 
يى» باستخدام بيانات طبية «مُشفرة» (آي (gil‏ مختلطة ومشوّشة حتى لا يمكن قراءتها 
بسهولةء انظر الفصل السابع)» متاحة بصفة قانونيةء ومنشأها كوريا الجنوبية» من فك 
تشفير معرّفاتِ فريدة في السجلات» وتحديد هويات المرضى من خلال مقارنتها بالسجلات 
العامة. 

تعد السجلات الطبية GL‏ القيمة لدى المجرمين الإلكترونيين. عام Y No‏ أعلنت 
شركة أنثيم للتأمين الصحي أن قواعد بياناتها قد تعرّضت للاختراق» ما ST‏ على بيانات 
أكثر من 7١‏ مليون شخص. تعرّضت بيانات مهمة لتحديد هويات الأشخاص» مثل 
الاسم والعنوان» ورقم التأمين الاجتماعيء للاختراق على يد ديب بانداء وهو فريق صيني 
من المخترقين الإلكترونيين» باستخدام كلمات مرور مسروقة للوصول إلى النظام وتحميل 
برنامج ضار من نوع حصان طروادة. الخطير في الأمر أن أرقام التأمين الاجتماعيء sal‏ 
المعرّفات الفريدة من نوعها في الولايات المتحدة الأمريكيةء لم تكن مُشفْرة» الأمر الذي ترك 
Sloe‏ واسعًا لاحتمالية سرقة الهويات. تبدأ الكثير من الاختراقات الأمنية بأخطاء بشرية: 
مثل الانشغال وعدم ملاحظة التغيّرات الطفيفة في محدّدات مواقع الويب «يو آر إل»» 


AY 
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وفقدان أجهزة على غرار محركات الأقراص المحمولة أو سرقتهاء أو حتى في بعض الأحيان 
إحلالها بأخرى تحتوي على برامج ضارة تُحمّل على الفور بمجرد أن يضع موظف غير 
مرتاب الجهاز في منفذ «يو إس بي». ويكون كذلك الموظّفون المستاءونء وأخطاء الموظّفين 
غير المقصودةء هي المتهم الرئيسي فيما gis‏ من تسريباتٍ للبيانات لا poe‏ لها. 

ol‏ القع ا الجديدة لاستخدام البيانات الضخمة في مجال إدارة الرعاية الصحية 
giki‏ بمعدّل متزايد من قبل مؤسسات ذات شهرة عالمية على غرار مجموعة مايو كلينيك: 
ومجموعة جونز هويكنز الطبية في الولايات المتحدة الأمريكية» وهيئة الخدمات الصحية 
الوطنية في المملكة المتحدة. ومستشفى جامعة كليرمون فيران في فرنسا. منحت الأنظمة 
المستندة إلى الحوسبة السحابية المستخدمين gjall‏ لهم بإمكانية الوصول إلى البيانات 
من أي مكان في العالم. وإذا ذكرنا Maly Wis‏ على ذلك» فسيكون خطط هيئة الخدمات 
الصحية الوطنية لإتاحة سجلات المرضى عبر الهواتف المحمولة بحلول عام V+ VA‏ وكان 
من شأن هذه التطورات أن تتسيّبء لا محالة» في المزيد من الهجمات على البيانات التي 
تستخدمهاء مع إدراك ضرورة بذل جهود كبيرة لتطوير أساليب أمان UES‏ لضمان 
سلامة هذه البيانات. 


A 


في عشرينيات القرن العشرين» وظّفت شركة جيه ليونز وشركائه» وهي شركة بريطانية 
تمتلك سلسلة مطاعم وشركات أغذية وفنادق» تشتهر بسلسلة مقاهى «كورتر هاوس»» 


alle‏ رياضياتٍ شاب من جامعة كاميريدج يُدعى جون سيمونزء لتولي أعمال الإحصاء. عام 
US asl: ۹۷‏ من رايموند تومسون وأوليفر ستاندينجفورهء Logie Gpl‏ سيمونزء 
في زيارة إلى الولايات المتحدة الأمريكية لتقصى الحقائق. وخلال هذه الزيارة» تعرّفا للمرة 
الأولى على أجهزة الكمبيوتر الإلكترونية وقدرتها على إجراء العمليات الحسابية الروتينية. 
وسعى سيمونزء منبهرًا بنتائج الزيارة» لإقناع Sisal‏ بشراء جهاز كمبيوتر. 

أثمر التعاون مع موريس ويلكسء الذي كان منخرطًا في ذلك الوقت في تصميم 
الكمبيوتر الآلي لتخزين التأخير الإلكتروني في جامعة كامبريدج» عن كمبيوتر ليونز 
المكتبي الإلكتروني. كان هذا الكمبيوتر يعمل باستخدام البطاقات ait)‏ واستخدم لأول 
مرة عام ٠۹١١‏ من قبّل شركة ليونز في shal‏ العمليات الحسابية الأساسيةء مثل جمع 
أعمدة تحتوي على أرقام. وبحلول عام ٤‏ ١۹١٠ء‏ أَسّست شركة ليونز شركتها الخاصة لأجهزة 
الكمبيوتر» وبدأت في تصميم كمبيوتر ليونز المكتبي الإلكتروني SEM‏ وتبعّه كمبيوتر 
ليونز المكتبي الإلكتروني الثالث. وعلى الرغم من أن بداية العمل بأجهزة الكمبيوتر المكتبية 
الأولى جاءت في وقت مبكر» في خمسينيات القرن العشرين, فإن هذه الآلات الأولى لم تكن 
موثوقة» وكانت تطبيقاتها محدودة؛ بسبب استخدامها للصمامات GW)‏ صمام في حالة 
كمبيوتر ليونز المكتبي الإلكتروني الأول) والشرائط الممغنطة» وسعة التخزين المحدودة 
للغاية لذاكرة الوصول العشوائي. اشتهر كمبيوتر ليونز المكتبي الإلكتروني الأول على 
نطاق واسع بأنه كمبيوتر إدارة الأعمال gil‏ الأمر الذي ميهد الطريق أمام التجارة 
الإلكترونية الحديثة» وبعد عدة عمليات دمج مع شركاتٍ أخرىء أصبح في نهاية المطاف 
جزءًا من شركة إنترناشونال كمبيوترز ليمتد حديثة التكوين عام NAVA‏ 


البيانات الضخمة 
التجارة الإلكترونية 


لم تكن أجهزة كمبيوتر ليونز المكتبية الإلكترونيةء وأجهزة الكمبيوتر المركزية الضخمة 
التي تلتهاء تصلح إلا لمهام معالجة الأرقام التي تعد جزءًا من مهام المحاسبة والمراجعة. 
وأصبح الموظّفون, الذين كانوا يقضون أوقاتهم سابقًا في حساب أعمدة من الأرقام: 
يقضون أوقاتهم في إعداد البطاقات الُْثقَبة وهي مهمة لا تقل عن سابقتها Ue‏ بل 
as‏ إلى تحري المستوى نفسه من الدقة الفائقة. 
أن أصبح استخدام أجهزة الكمبيوتر مجديًا بالنسبة إلى المؤسسات As loi‏ 

ظهر ah‏ بكيفية استخدامها في رفع الكفاءةء وتقليل التكاليف» وتحقيق الأرباح. 
ily‏ تصميم الترانزستور واستخدامه في أجهزة الكمبيوتر المتاحة تجاريًا إلى صُنع أجهزة 
أصغر حجمًا من ذي قبلء By‏ أوائل السبعينيات من القرن العشرين» ظهرت أولى أجهزة 
الكمبيوتر الشخصية. ولكن» لم تَطرّح هذه الفكرة Lyles‏ حتى عام VAAN‏ عندما طرحت 
شركة إنترناشونال بيزنس ماشينز (آي بي (al‏ كمبيوتر آي بي al‏ الشخصي في الأسواقء 
مع استخدام الأقراص المرنة في تخزين البيانات. وكانت إمكانات معالجة النصوص 
وجداول البيانات التى امتلكتها الأجيال اللاحقة من أجهزة الكمبيوتر الشخصية مسئولة 
إلى $A‏ كبير عن تخفيف الكثير من أعباء الأعمال المكتبية الروتينية. 

وعلى ضوء التقنية التي أتاحت الإمكانية لتخزين البيانات إلكترونيًا على أقراص 
مرنة» سرعان ما ظهرت فكرة أن المؤسسات قد تدار بفاعلية في المستقبل دون استخدام 
0 في bs ۱۹۷٩‏ مقالٌ نشر في مجلة بيزنس ويك الأمريكية بأن أماكن العمل الخالية 

من الورق يمكن أن تُصبح واقعًا بحلول عام NAA‏ واقترح JM‏ أنه من خلال 

TT‏ الورق أو تقليله إلى pus Ša‏ قد يُصبح مكان العمل أكثر فاعليةٌ 
وقد تقل التكاليف. تراجّع مُعدّل استخدام الورق في أماكن العمل لفترة من الوقت خلال 
ثمانينيات القرن العشرين عندما نَقلّت كثيرٌ من الأعمال الورقية التي كان من المعتاد 
رؤيتها في خزائن الملفات إلى أجهزة الكمبيوترء ثم سكّل هذا assan‏ أعلى معدلاته 
على الإطلاق عام Vs +V‏ وكانت النسخ المصوّرة هى المسئولة عن السواد الأعظم من هذه 
tia ait‏ ل انهاه الووى ale‏ و وره الق AS‏ 3 
ذلك إلى زيادة استخدام الهواتف الذكية وتسهيلاتٍ على Le‏ التوقيع الإلكتروني. 

abl Je‏ كن أن ن التطلّعات المتفائلة التي ظهرت منذ بداية العصر الرقمي إلى جعل 
أماكن العمل خالية من الوزق لم تتحفق.وقتها cbse‏ ثورة Bard‏ العمل aydi ads‏ 
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الإلكترونيء.وبرامج معالجة النضوض» وجداول البيانات الإلكثرونية. إلا أن استخدام 
الإنترنت على نطاق واسع هو ما Jas‏ التجارة الإلكترونية ERK‏ عمليًا. 

Jal‏ التسوّق عبر الإنترنت هو المثالٌ الأشهر. فنحن» باعتبارنا عملاء نستمتع برفاهية 
التسوق iets gill Go‏ الوه AN‏ مون Gig‏ وا اة iN‏ ب 
لها العملاء قليلة» «Sly‏ بناءً على نوع المعاملةء قد 355( عدم القدرة على التواصل ve‏ 
ily TERE‏ المتاجر إلى تجذب استخدام الشراء عبر الإنترنت. وعلى نحو متزايد 
أف اک E P E a E E ate gs E‏ 
عبر الإنترنت مثل «الدردشة الفورية»» والتقييمات عبر الإنترنت» والتصنيف بالنجوم: 
بالإضافة إلى مجموعة اختيارات ضخمة من السلع والخدمات Lad‏ عن سياسات الإرجاع 
السخية. بالإضافة إلى شراء السلع aisg‏ مقابلهاء أصبح بالإمكان ads Ge‏ الفواتيرء 
وإجراء المعاملات المصرفيةء وشراء labli SIS‏ والوصول إلى مجموعة من الخدمات 
الأخرى جميعها عبر الإنترنت. 

يعمل موقع إيباي بأسلوب مختلف ás‏ ماء Sense‏ دق أن Ko‏ زط ةا Siva sl‏ 
الهائلة التي يُنتجها. بالنظر إلى المعاملات التي 6505 عبر عمليات البيع وعطاءات المزادات 
اا البوانات eas fs,‏ هده البيانات عن alec Js‏ 
بحثء وبيع» ومزاد 6505 على الموقع بواسطة مُستخدميه saill‏ الذين يرْعَم أن عددّهم 

٠‏ مليون. مُستخيم digs V+ Gyo‏ باستخدام هذه البيانات وأساليب التحيل المثاسبة 

تمكّن الموقع Éile‏ من تنفيذ أنظمة توصية مثيلة لأنظمة نتفليكس» والتي سنتحدّث عنها 
ay‏ في هذا الفصل. 

توفر مواقع شبكات التواصل الاجتماعي للشركات ملاحظات فوريةٌ عن كل شيءِ من 
الفنادق والعطلات إلى الملابس» وأجهزة الكمبيوترء والزيادي. باستخدام هذه المعلومات» 
يمكن للشركات معرفة العناصر التي تحقّق نجاحًاء وحجم هذا النجاح» والجوانب المثيرة 
للشكاوى» مع US‏ المشكلات قبل أن تخرج عن نطاق السيطرة. بل إن القيمة الأكبر 
لهذه المعلومات هى منح القدرة على التنبق Les‏ يرغب العملاء في شرائه sls‏ على عمليات 
القراةة ماه ار قاط Saath‏ طن tt. Aa sail atl‏ مواق كات. الفراصيل 
الاجتماعيء مثل فيسبوك وتويتر, كمياتٍ ila‏ من البيانات غير الهيكلية التي يمكن أن 
تتفي الشتركاث Gyles lye‏ قحال استخدام أساليب الحظيل LS LS Faull‏ 
مواقع السياحة والسفرء مثل تريب أدفايزرء المعلومات مع جهاتٍ أخرى. 
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البيانات الضخمة 
إعلانات الدفع مقابل النقر 


أصبح الخبراء يُقرُون الآن» على نحو متزايدء بأنَّ الاستخدام الصحيح للبيانات الضخمة من 
شأنه أن sis‏ بيانات مفيدة ويجتذب عملاء جددًا عبر الترويج giai‏ للسلع واستخدام 
دعاية موجّهة على نحو أفضل. في كل مرة نستخدم الويبء نشاهد إعلانات عبر الإنترنت 
لا محالةء بل وقد ننشر بأنفسنا Ísla obej‏ على العديد من مواقع المزادات على غرار 
إيباي. 

إن أحد أشهر أنواع الإعلان هو ذلك الذي يتبع نموذج الدفع مقابل النقر» وهو نظام 
تظهر خلاله إعلانات ذات صلة عند إجراء عملية بحث عبر الإنترنت. إذا أرادت شركة أن 
Boas‏ إعلاناتها عند الاستعلام عن مصطلح بحث معينء فإنها تضع عطاءً مع مزوّد 
الخدمة على كلمة رئيسية تتعلّق بمصطلح البحث هذا. كما أنها oli‏ ميزانيةٌ يومية 
قصوى. وتُعرّض الإعلانات بالترتيب وفقًا لنظام يستند Gija‏ إلى Gi‏ الُعلنين قدَّم العطاءَ 
الأعلى على هذا المصطلح. 

إذا نقرت فوق إعلان لأحد المعلنين» فسيكون عا عليه أن يدفع J!‏ مزوّد الخدمة قيمة 
العطاء الذي حدّده. ولا تدفع الشركات المال إلا إذا 585 طرف مهتم فوق إعلاناتها؛ ومن 
ثم يجب أن تكون هذه الإعلانات ملائمةٌ ALS‏ لمصطلح البحث حتى تزداد أرجحية أن 
ينقر متصفحو الويب فوقها. وتضمن خوارزمياتٌ دقيقة أن يُحقّق مزوّد الخدمة, مثل 
جوجل أو gal‏ أقصى ile‏ ممكن. stay‏ جوجل آدووردز (المعروف الآن بإعلانات جوجل 
أو جوجل Gul‏ أفضل تطبيق معروف لإعلانات الدفع مقابل النقر. عندما نُجري Bas‏ 
على محرك بحث جوجل» ينشئ آدووردز الإعلانات التي تظهر SL‏ على ile‏ الشاشة 
بواسطة آدووردز. الجانب السلبي في هذا النموذج هو أن النقرات قد تكون باهظة»ء كما 
اك ا لعن ارف gall, call‏ اخ SSG. GSI Bs‏ من 
اللازم. 

يم ار التمثيالي مشكلة Yo LA‏ سبيل JOU‏ فى 555 شركة Luilic‏ قوق 
إعلانك بصورة مُتكرّرة حتى تستنفد ميزانيتك اليومية. أو (Sas‏ استخدام برنامج ضارء 
يُسمى كليكبوت» لإنتاج نقرات زائفة. والمعلن وحده هو oá‏ يقع ضحيةٌ لهذا النوع من 
الاحتيال؛ OY‏ مزوّد الخدمة يحصل على أمواله دون مشاركة أي عميل. ولكنء بما أن 
ضمان الأمن؛ ومن aå‏ حماية المشروع التجاري المربح» يصب في مصلحة مزوّدي الخدمةء 
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JAS‏ جهودٌ بحثية كبيرة من أجل مكافحة الاحتيال. ربما كانت أبسط الطرق هي متابعة 
عدد النقرات المطلوية في المتوسط لإتمام عمليات الشراء. وإذا حدثت زيادة مفاجكة في عدد 
النقرات أو تنفيذ عدب كبير من النقرات دون shal‏ عمليات شراء فعلية» فمن المرجّح أن 
يكون هذا نقرًا احتياليًا. 

على النقيض من ترتيبات الدفع مقابل Hill‏ من Yall‏ أن الإعلانات الْموجّهة تعتمد 
على سجل نشاط Gadd JS‏ على الإنترنت. ولكي نعرف كيفية عمل هذا النوع من 
الإعلاناتء سنبداً بتناول ملفات تعريف الارتباط» التي لم أسهب في الحديث غنها في 
الفصل الأولء بمزيدٍ من التفصيل. 


ملفات تعريف الارتباط 


Latins نظام التشغيل يونيكسن‎ 42485 Losie VAV4 هذا المتطاخ المرة الأول عام‎ gs 
عروض أسعار عشوائية إلى المستخدمين‎ dass كان‎ Gilly «فورتشن كوكي»»‎ oud 
تعريف الارتباط العديدٌ من الأشكالء وتنشأ‎ GLAM مستخرجةًٌ من قاعدة بيانات ضخمة.‎ 
وتُستخدّم في متابعة نشاط ما على أحد المواقع الإلكترونية أو أجهزة‎ Ga Ld جميعها‎ 
الكمبيوتر. عندما تزور موقعًا إلكترونيّاء يرسل خادم ويب رسالةٌ إلى متصفحك» وهذه‎ 
Sal الرسالة عبارة عن ملف صغير يُخْرَّن على جهاز الكمبيوتر لديك. تعد هذه الرسالة‎ 
الكثير من الأنواع الأخرى» مثل تلك التي‎ AS الأمثلة على ملفات تعريف الارتباطء إلا أن‎ 
Se Heys chs افا ف‎ aly, ماد ا‎ sigh ف‎ 


gS ght الإعلانات‎ 


تَجِمّع بيانات US‏ نقرة تنقرها على الإنترنت وتُستخدّم في الإعلانات الموجّهة. 

Las‏ هذه البيانات إلى شبكات إعلانية GAs Al olga!‏ على جهاز الكمبيوتر 
لديك في صورة ملف تعريف ارتباط. وعندما تنقر على مواقع أخرى تدعها هذه الشبكات» 
ستعرّض إعلاناتٌ عن منتجات عاينتها سابقًا على شاشتك. باستخدام auch‏ أحد البرامج 
الإضافية المجانية لمتصفح موزيلا فايرفوكسء يمكنك أن تتبع مسار الشركات التي تجمع 
بيانات نشاطك على الإنترنت. 


AN 


البيانات الضخمة 
أنظمة التوصية 


توفر أنظمة التوصية أو الاقتراح آلية تصفية 555 المستخدمين بمعلوماتٍ بناءً على 
اهتماماتهم. تعرض أنواغ أخرى من أنظمة التوصية:؛ لا تعتمد على اهتمامات cual‏ 
ما يتصفحه العملاءٌ الآخرون في الوقت الحقيقىء وعادةً ما تظهر هذه التوصيات على 
أنها «الأكثر تداولًا». ومن أمثلة الشركات التي نكوي هذه الأنظمة نتفليكسء وأمازون» 
وفيسبوك. 

ثمّة طريقة لتحديد المنتجات التي woe‏ بها للعملاء وهي «التصفية التعاونية». 
pudiud «ple dog:‏ الخوارزسية البيانات التي edad‏ عن كل عميل على Bus‏ من عمليات 
الشراء والبحث السابقة التي أجراهاء وتقارن هذه البيانات بقاعدة بياناتق ضخمة تتضمّن 
العناصر التى نالت استحسان العملاء الآخرين وتلك التى لم KÉ‏ استحسانهم؛ وذلك 
من أجل تقديم تؤضيات هناسية بشآن غمليات الشراء الجديدة: ولكق لا تؤدي LAL‏ 
البسيطة بوجه عام إلى نتائج جيدة. دعونا نتناول المثال الآتي. 

لنفترض أن مكتبةٌ عبر الإنترنت تبيع GES‏ طبخ إلى أحد العملاء. قد يكون من 
السهل بالتالي أن توصي Ghall‏ بجميع كتب الطبخ» ولكن من غير Sct‏ أن ينجح هذا 
في ضمان عمليات شراء جديدة. فثمّة الكثير We‏ من كتب الطبخ» والعميل على Dhs‏ 
بالفعل أنه يهوي GS‏ الطبخ. ما نحتاج إليه في هذه الحالة هو طريقة لتقليل عدد الكتب 
cáil‏ بها ليكون مقصورًا فقط على الكتب التي من المحتمّل أن يشتريها العميل. دعونا 
ذلقي نظرة على ثلاثة عملاء هم سميثء وجونزء وبراون» إلى جانب مشترياتهم من الكتب 


(جدول .)١1١6‏ 
جدول 1- -1 : الكتب التي اث شتزاها كل من سمت وخونن ويزاون 
قن إعداد الباستا اليوم مستقبل عصائر 
السلطة الحلويات ومشروبات 
سميث تمَّ الشراء a5‏ الشراء 
جونز تم الشراء 5 الشراء 
باون تمَّ الشراء a3‏ الشراء تم الشراء 


البيانات الضخمة والشركات الكبرى 


السؤال الذي يحاول نظام التوصية الإجابة عنه هو: ما الكتب التي يجدر التوصية 
بها إلى سميث وأيها إلى جونز؟ نريد أن نعرف ما إذا كان سميث من PSU‏ أن يشتري 
GUS‏ «الباستا اليوم» ES al‏ «عصائر ومشروبات». 

ولكى نفعل dia‏ علينا أن نستخدم طريقةً إحصائية لطالما استخدمناها في مقارنة 
العاف وتيت atlas lady.‏ ناكا وا plat E ah,‏ المشتركة نين 
مجموعتّين مقسومًا على إجمالي عدد العناصر المختلفة في المجموعتين. ويقيس معامل 
التشابه Shull‏ بين المجموعتّين على أنه نسبة العناصر المشتركة daig Lagin‏ مسافة 
جاكار بأنها saly‏ ناقص Jolas‏ تشابه جاكار» وتقيس عدم BLU‏ بين المجموعتين. 

بالنظر مرة أخرى إلى جدول VV‏ نرى أن سميث وجونز اشتريا الكتاب نفسه. 
«فن إعداد السلطة». وبالمقارنة Legis‏ نرى أنهما اشتريا BV‏ كتب مختلفة؛ «فن 
إعداد السلطة»» و«مستقبل الحلويات»» و«عصائر ومشرويات». liag‏ يعطيهما delas‏ 
تشابه جاكار يساوي V/V‏ ومسافة جاكار تساوي -Y/Y‏ يوضّح جدول Y-I‏ العمليات 
الحسابية الخاصة جميع الأزواج المحتملة من العملاء. 


جدول 5-5؟: Jolas‏ تشابه جاكار ومسافة جاكار 


عدد الكتب المشتركة إحمالي عدد الكتب معامل تشابه جاكار مسافة جاكار 
المختلفة sliall‏ 


سميث وجونز \ Y/Y ۲/۱ Y‏ 
سميث وبراون ١‏ ع ٤/١‏ ۲/ 
جونز وبراون \ EJA é‏ */ء 


يسجّل سميث وجونز Jolas‏ تشابه lel Sle‏ أو درجة ELS‏ أعلى» من سميث 
وبراون. وهذا يعني أن العادات الشرائية لدى سميث وجونز متقاربة» ومن AS‏ نوصي 
بكتاب «عصائر ومشروبات» إلى سميث. ما الذي يجدر بنا التوصية به إلى جونز؟ يسجّل 
سميث وجونز alas‏ تشابه جاكار أعلى من جونز وبراون» وعليه» فإننا نوصي بكتاب 
«مستقبل الحلويات» إلى جونز. 
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والآن» لنفترض أن العملاء يُقيُمون عمليات الشراء باستخدام نظام تقييم بخمس 
نجوم. للاستفادة بهذه المعلومات وتوظيفهاء علينا أن نعثر على عملاء آخرين أعطوا 
التقييم نفسه لكتب بعينهاء والاطلاع على مشترياتهم الأخرى مع أخذ تاريخهم الشرائي 
في الاعتبار. التقييم بالنجوم لكل عملية شراءِ AAs‏ في جدول VV‏ 


فن إعداد السلطة الباستا اليوم مستقيل الحلويات عصائر ومشرويات 


Y 0 سميث‎ 
8 y جونز‎ 
Y é \ براون‎ 


فا لقال تركف Malis Gls Us ye‏ شی «مقياس تشابه جيب التمام» 


ت 


gelis‏ فيها نظام التقييم باستخدام النجوم. في طريقة الحساب ËS oda‏ المعلومات 
العطاة في جدول التقييم بالنجوم في صورة متجهات. ويّحدَّد Sule‏ طول المتجه أو مقداره 
بالواحد الصحيح» ولا يودي طول المتجه أو مقداره دورًا آخر في الحسابات. يُستخدّم 
اتجاه المتجه باعتباره وسيلةٌ لتحديد مدى ELS‏ متجهين؛ ومن AS‏ الجانب صاحب أفضل 
تقييم بالنجوم. sly‏ على نظرية فضاء المتجهات» يتم إيجاد قيمة لتشابه Gad‏ التمام بين 
المتجهين. وتختلف طريقة الحساب هذه lég‏ ما عن طريقة حساب المثلثات المألوفةء إلا 
أن الخصائص الأساسية تظل قائمةٌ ob‏ يأخذ جيب التمام قيمًا تتراوح ما بين صفر 
وواحد. على سبيل JEU‏ إذا وجدنا أن تشابه Gad‏ التمام بين متجهّينء US ed‏ منهما 
audi‏ نجوم أحد الأشخاصء يساوي واحدًاء فسيكون قياس الزاوية بينهما صفرًا؛ وذلك 
EE‏ ا ومن ثم لا بد أنهما منطبقان ويمكننا أن نستنتج 


ان الشخصّين متماتلان في الذوق. وكلما زادت قيمة تشابه جیب chaill‏ زاك ea‏ هذا 
التماثل. 


إذا أردت الاستزادة بمعرفة التفاصيل الرياضيةء فيمكنك مطالعة المراجع الموجودة 
في جزء «قراءات إضافية» في نهاية الكتاب. ZAN‏ للاهتمام من وجهة نظرنا أن تشابه 
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جيب التمام بين Grew‏ وجونز يبلغ or Or‏ وبين Grew‏ وبراون يبلغ .١:,5 E‏ وهذا 
الناتج على النقيض من الناتج السابق؛ ما يعني أن سميث وبراون متقاريان في ذوقيهما 
أكثر من سميث وجونز. بعبارة أخرى» يمكن تفسير ذلك بأن رأي SS‏ من سميث وبراون 
في GUS‏ «مستقبل الحلويات» متقاريان AST‏ من رأي سميث وجونز في كتاب «فن إعداد 
السلطة». ١‏ 

تستخدم خوارزميات التصفية التعاونية من قبّل US‏ من شركتي نتفليكس وأمازونء 
اللتين سنتحدّث عنهما في الجزء التالي مباشرة. 


أمازون 
في Gaul VANE‏ جيف بيزوس شركة كادابراء وسرعان ما غر اسمها إلى أمازون» By‏ 
١16‏ أطلق موقع Amazon.com‏ كانت الشركة في الأساس byle‏ عن مكتية عبر 
الإنترنت» وأصبحت Kb WE‏ تجارة إلكترونية دولية يبلغ عدد عملائها ٠١5‏ ملايين 
عميل من جميع أنحاء العالّم. تعمل الشركة في مجال إنتاج وبيع مجموعة متنوّعة من 
السلعء بدايةٌ بالأجهزة الإلكترونية وانتهاءً بالكتب» وحتى الأغذية الطازجة Jis‏ الزباديء 
والحليب» والبيض عبر متجر «أمازون فريش». كما أنها شركة رائدة في مجال البيانات 
الضخمة؛ حيث تقدّم خدمات أمازون ويب للشركات حلولَ بيانات ضخمة تستند إلى 
الحوسبة السحابيةء باستخدام أدوات متطوّرة تعتمد على نظام هادوب. 
جمعت أمازون بيانات عن الكتب المشتراة. والكتب التي عاينها العملاء ولكنهم 

يشتروهاء والفترة التي قضوها في البحث عن GUS‏ معن وما إذا اشتروا الكتب 
الق تحفظوها ا و لماه ا ف ies.‏ م 
تحديد المبالغ التي أنفقها العملاء على الكتب شهريًا أى سنوياء وتحديد ما إذا كانوا 
عملا معناديق آم لاف يداية نشأة الشركة كانت البيانات الى جمعتها أمازوة Shad‏ 
اتيد ANNALS)‏ كاف توكو عرفا عن الأشخاصء ling‏ على 
أوجه التماثّل التي يتم إيجادهاء قد تعرض أمازون At‏ من العناصر المشابهة على 
العملاء. ولتحسين هذا الأسلوب على نحو أفضلء pái‏ باحثون من شركة sibel‏ عام 
١‏ بطلب للحصول على براءة اختراع لأسلوب Sud‏ «التصفية التعاونية القائمة على 
ال وبال All‏ ا و Gn‏ لماو palais‏ اا وان الت 
المتشابهين. 
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تجمع أمازون كميات Able‏ من البيانات» بما في ذلك العناوين» ومعلومات الدفع» 
nals‏ كلها تف مهه اليك أو ارا متايه هع ارون GUIs‏ قمعم 
العملاء على إنفاق المزيد من المال على سلعهاء وذلك من خلال محاولة إجراء أكبر قدر 
ممكن من أبحاث السوق عن العملاء. في حالة الكتب» على سبيل المثالء لا تحتاج أمازون 
إلى توفير مجموعة ضخمة من الكتب فحسبء بل تحتاج أيضًا إلى تركيز توصياتها على كل 
عميل على حدة. فإذا ES ASI‏ في خدمة أمازون برايم» فستتبع الشركة أيضًا الأفلام التى 
SI padi Bel all J elles E‏ من العملا الوادت الذكية الى توي 
على خاصية نظام تحديد المواقع العالمي (جي بي إس)ء الأمر الذي S25‏ أمازون من جمع 
البيانات التى توضح الوقت والموقع. ويُستخدّم هذا الكم الهائل من البيانات في إنشاء 
ملفا تعريف للعملاء تتيح مطابقة الأفراد المتشابهين بتوصياتهم. 

منذ Y+ VY‏ بدأت أمازون في بيع بيانات تعريف العملاء إلى الُعلنين من أجل الترويج 
لخدمات ويب الخاصة بهاء ما نتج عنه نمو كبير للشركة. وفيما يتعلّق بخدمات أمازون 
ويب» منصة الشركة للحوسبة السحابيةء sas‏ الأمان أمرًا شدينَ الأهمية ومتعدّد الأوجه. 
وما كلمات المرورء وأزواج المفاتيح» والتوقيعات الرقمية إلا مجرد أمثلة قليلة على أساليب 
الأمان المعمول بها لضمان أن تكون حسابات العملاء falia‏ فقط لأولتك الذين يملكون 
بيانات المصادقة الصحيحة. 

bas‏ بيانات أمازون بالمستوى نفسه من الحماية المتعدّدة والتشفير باستخدام 
خوارزمية «إيه l‏ إس» (معيار التشفير المتقدّم) من أجل تخزينها في مراكز البيانات 
الممخصّصة لها في جميع أنحاء العالم» و«إس إس إل» (بروتوكول طبقة المنافذ الآمنة)» 
المعيار الصناعيء في إنشاء وصلة آمنة بين جهارّينء مثل إنشاء رابط بين الكمبيوتر المنزلي 
وموقع .Amazon.com‏ 

أمازون هي الشركة الرائدة في مجال «الشحن الاستباقي» بناءً de‏ أساليب تحليل 
البيانات الضخمة. تدور الفكرة حول استخدام البيانات الضخمة في توقع السلع التي 
قد يطلبها العملاء. وتدور الفكرة الأصلية حول شحن المنتجات إلى مركز التوزيع قبل 
إجراء الطلب فعليًا. وكإضافة بسيطةء يمكن Gad‏ المنتج إلى العميل مع تقديم مفاجئة 
مجانية له في حال استحسانه للمنتج. وعلى ضوء سياسة أمازون للاسترجاع؛ لا تعد 
ode‏ فكزة سيكة. GIS‏ هق المتوقع أن أغلب العملاء طون tits‏ الذي طليؤة. Los‏ 
أنه كان يعتمد على تفضيلاتهم الشخصية»ء التي توصّلت إليها الشركة باستخدام أساليب 
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تحليل البيانات الضخمة. توضّح LAÍ‏ براءة اختراع الشحن الاستباقي» التي حصلت 
عليها أمازون عام LEY VE‏ أن رضا العملاء يمكن شراؤه بإرسال هدية ترويجية. SI‏ 
رضا العملاء وزيادة المبيعات عبر التسويق dS gl‏ وتقليل زمن التوصيلء جميعها أمو 
تجعل أمازون تؤمن بأنها شركة جديرة بالاهتمام. تقدّمت أمازون LAST‏ بطلب اي 
عل دواد dl E‏ والطا نوات كد وين E‏ رتور سكف E E‏ سقيس 15 
cds‏ إدارة الطيران الفيدرالية الأمريكية من قوانين تشغيل الطائرات بدون طيّار من 
قبل المؤسسات التجارية» ما سمح لهاء في ظروفٍ خاصة تخضع للرقابة الشديدة Ob‏ 
تطير خارج مجال رؤية Sas G2‏ بها. ربما كانت هذه الخطوة الأولى في مسعى أمازون 
إلى توصيل الشحنات خلال "١‏ دقيقة من طلبهاء وريما Gal‏ هذا إلى توصيل الحليب 
بالطائرات بدون طيّار بعدما تكشف أجهزة الاستشعار في ثلاجتك الذكية GI‏ ما بها من 
حليب أوشك أن ينتهي. 

أمازون جوء متجر مواد غذائية موجود في Biu‏ وهو الأول من نوعه الذي لا Aba‏ 
منك الدفع لدى أمين خزينة قبل الخروج من المتجر. حتى ديسمبر ١٠١٠ء‏ كان المتجر 
متاحًا häi‏ لموظفي أمازونء وتأجَّلت الخطط OY‏ يصبح متاحًا لجمهور المستهلكين dole‏ 
في يناير YAV‏ تقتصر التفاصيل الفنية الوحيدة المتاحة لنا Gils‏ على ما ورد في براءة 
الاختراع التي căi‏ منذ عامّينء والتي تصف نظامًا يُلغي الحاجة إلى التحقق من شراء كل 
عنصر على حدة. Ty‏ من ذلك» تضاف تفاصيل عربة تسؤق العميل الحقيقية GSE‏ إلى 
عربة تسؤّقه الافتراضية أثناء التسوق. ويتم الدفع Big ASI‏ أثناء مغادرة العميل المتجر 
عبر منطقة انتقالية ما دام يمتلك Glue‏ أمازون وهاتفا eins USS‏ على تطبيق أمازون 
جو. يعتمد نظام جو على مجموعة من أجهزة الاستشعارء عدد كبير Me‏ منهاء تستخدّم 
لتحديد متى G‏ سلعة من أحد الرفوف أو تعاد إليه. 

من شأن هذا النظام أن ينتج AS‏ هائلة من البيانات ذات الفائدة التجارية لصالح 
شركة أمازون. وبما أن US‏ فعل تسوّق يحدث ما بين دخول العميل المتجر ومغادرته 
ous‏ فلا شك في أن أمازون ستتمگن من استخدام هذه البيانات في تقديم التوصيات 
لعملائها خلال زيارتهم التالية بطريقة BLS‏ نظام توصياتها عبر الإنترنت. ولكنء قد 
تطرأ مشكلات تتعلّق بمدى تقديرنا لخصوصيتناء لا سيّما بسبب أمور على غرار الاحتمالية 
المذكورة في طلب الحصول على براءة الاختراع» والتى تتعلّق باستخدام أنظمة التعرّف على 
Seagal‏ تكديد الا : 
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US‏ شركة أخرى من شركات وادي السيليكون وهي شركة نتفليكس التي ead‏ عام 
۷ كشركة لتأجير أقراص الدي في دي عبر البريد. كان بإمكانك أن تأخذ قرص دي 
في دي وتضيف قرصًا آخر إلى قائمة طلباتك؛ ومن ثم Jus‏ إليك الأقراص ELS‏ والأهم 
من ذلك أنه في مقدورك تحديد الأولويات ضمن قائمتك. لا تزال هذه الخدمة متوافرة 
ومربحةء ولكن يبدو أنها توشك على الانتهاء تدريجيًا. أصبحت نتفليكس Úlla‏ مزوّدًا 
دوليًا للخدمات الإعلامية Silly‏ عبر الإنترنت» Sse Jagg‏ مشتركيها إلى ما يقارب Vo‏ 
مليون مشترك من ١١٠١‏ دولةء وتمكّنت من التوسّع clad‏ لتشرع في تقديم برامجها 
الأصلية. 

تجمع نتفليكس كميات dle‏ من البيانات وتستخدمها في تحسين الخدمات المُقدّمة 
إلى العملاء» مثل عرض التوصيات لأفراد المستخدمين مع السعي في الوقت نفسه إلى تقديم 
خدمة ES‏ لأفلامها يمكن التعويل عليها. تقع التوصيات في صميم نموذج عمل AS pb‏ 
نتفليكس» حيث يقوم الجزء الأكبر من عملها على التوصيات التي يمكنها عرضها على 
العملا والستكدة إل البياثات > كانم Salas‏ خالا ما ايقاهيه JS‏ غميل من Agirlec‏ 
ونا کک سے ونا بك ع وزو ela) aay‏ كل هة ASA‏ كما آنا مهل :ما 
إذا كان العميل يستخدم جهاز آي ol‏ أو تلفزيونًا أو جهارًا آخر. 

في ٠٠١٠ء‏ أعلنت نتفليكس عن مسابقة dole‏ للجمهور تهدف إلى تحسين أنظمة 
التوصية لديها. وعرضت الشركة جائزة قيمتها مليون دولار لخوارزمية التصفية التعاونية 
التي ستّحسّن بنسبة BUG ٠١‏ من دقة التنبؤات بتقييمات المستخدمين للأفلام. وأتاحت 
نتفليكس بيانات التدريب» ما يزيد على ٠٠١‏ مليون عنصرء من أجل مسابقة تعلّم 
الآلة والتنقيب في البيانات ode‏ ولم يكن مسموحًا استخدام أي مصادر أخرى. عرضت 
نتفليكس جائزةً مبدئية (جائزة (piali‏ بقيمة ٠0‏ ألف ys‏ والتي SUE‏ بها فريق 
شركة كوريل قي Wan Wr‏ تكنو رمن Sls ahs Sik a fae‏ أسول فقا ها 
كلية وسيل كلم فسية .فق هذا اا ققد ومع علو VeVi‏ جارات Al‏ 
ليحصلوا على خوارزمیتین نهائيتين لا زالت نتفليكس تستخدمهما حتى الآن» ولا تزالان 
قيد التطوير المستمر. صيعّت هاتان الخوارزميتان لتتمكنا من التعامل مع ٠٠١‏ مليون 
تقييم في مقابل الخمسة مليارات تقييم التي يجب أن تتمگن الخوارزمية التي ستحصل 
على الجائزة الكاملة من التعامُل معها. مُنْحَت الجائزة الكاملة» في نهاية المطاف» في 
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عام 2٠١4‏ إلى فريق برجماتيك كيوس من شركة بلكور» والذي aiia‏ خوارزميته نسبة 
تحسّن بلغت ٠١,١7‏ في BUI‏ عن الخوارزمية التي كانت مستخدمةٌ في ذلك الحين. لم 
oss‏ ركه تنك الخوارةمية SUA‏ بالكامل: عن الإطلاق: وتر جم Gala Gls‏ 
إلى أنهاء بحلول ذلك الوقتء كانت قد غيّرت نموذج عملها إلى giga‏ عمل البّث الإعلامي 
الحالي المألوف. 

بمجرد أن وسّعت نتفليكس نموذج عملها من الخدمات البريدية إلى إتاحة الأفلام 
عبر البّثء تمكّنت من جمع AS‏ أكبر بكثير من المعلومات عن تفضيلات عملائها وعادات 
المشاهدةء الأمر الذي مكّنها من تقديم توصيات مُحسّنة. ولكن» بعيدًا عن الطريقة الرقمية: 
hss‏ نتفليكس مُعلّقِين بدوام جزئي» glasb‏ حوالي ٠‏ شخصًا في جميع أنحاء العالم, 
يشاهدون الأفلام ويعلّقون على المحتوى ویصتفونه» على سبيل SEM‏ على أنه «خيال 
علمي» أو «كوميديا». ومن ALAS AÀ‏ الأفلامء بالاحتكام إلى الرأي البشري في الأساس 
وليس إلى خوارزمية حاسوبية» وسنتناول هذا لاحمًا. 

تستخدم نتفليكس مجموعةً كبيرة من خوارزميات التوصية؛ والتي is Kad‏ نظام 
A ge CPT |‏ »الكو fer Pr keto fey Pe eee Pee en‏ کا 
الشركة. على سبيل المثال» تحدّد التصفية المستندة إلى المحتوى البيانات التي يقدّمها 
«المعلقون»» وتبحث عن أفلام وبرامج تلفزيونية مشابهة طبقا لمعايير على غرار المحتوى 
أو Gall‏ توصت Slash‏ التسفية slat‏ ف هن Goal‏ عن اها عاذاتك Goss lad‏ 
المشاهدة والبحث. وتستند التوصيات إلى ما شاهده المشاهدون أصحاب ملفات التعريف 
المشابهة. ولا شك في أن فرص نجاح هذا الأسلوب تتراجع عندما يزيد عدد مستخيمي 
الحساب عن مستخدم واحد» Baler‏ ما يكونون عدة shal‏ من أسرة واحدة لكل منهم 
أذواق وعاداث مشاهدة مختلفة. ومن أجل التغلّب على هذه المشكلة» أنشأت نتفليكس 
sha‏ ملفات التعريف المتعدّدة ضمن US‏ حساب من حسابات المستخدمين. 

تعد خدمة العروض التلفزيونية على الإنترنت حسب الطلب مجالًا آخر يساعد في نمو 
شركة نتفليكسء وستتزايد أهمية استخدام أساليب تحليل البيانات الضخمة مع استمرارها 
في تطوير أنشطتها. بالإضافة إلى جمع بيانات البحث والتقييمات باستخدام النجوم؛ يمكن 
لشركة نتفليكس GIL‏ أن تحتفظ بسجلات عن عدد مرات إيقاف المستخدمين لمقاطع 
الفيديى أو تقديمهاء أو ما إذا كانوا يستكملون مشاهدة كل برنامج بدءوا في مشاهدته al‏ 
لا. كما أنها تتابع كيفء ومتىء وأين شاهدوا البرنامج إلى جانب عدد كبير من المتغيّرات 
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التى لن يسعنا ذكرها هنا لكثرتها. باستخدام أساليب تحليل البيانات الضخمة:؛ نما إلى 
Lale‏ أنها أصبحت قادرةً Gils‏ على gaul‏ بدقة معقولة ما إذا كان أحد عملائها بصدد 
إلغاء اشتراكه. 


ale‏ البيانات 


alles‏ البيانات» هو Galil‏ العام الذي يُطلّق على العاملين في مجال البيانات الضخمة. ألقى 
تقرير شركة ماكنزي لعام ۲١٠١‏ الضوءً على نقص slale sue‏ البيانات في الولايات المتحدة 
الأمريكية وحدهاء 15588 أنه بحلول ۲۰۱۸ سيصل العجز إلى ١٠١‏ ألفا. يتكرّر هذا النمط 
على نحو واضح في جميع أنحاء العالّم؛ وعلى الرغم من المبادرات الحكومية التي تُشْجّع على 
التدريب على مهارات paws cotta! ple‏ أن الفحوة: يتن الخيراك xb‏ والمطلوية كران 
تتسع. E‏ شهرة ale‏ البيانات sels‏ خيارات الدراسة الجامعيةء إلا أن الخريجين لم 
يتمگنوا حتى الآن من تلبية متطلّبات التجارة والصناعة» حيث تقدّم الوظائفٌ في مجال 
ale‏ البيانات رواتبٌ Ísle‏ للمتقدمين الأكثر خيرة. تهتم SLL‏ الضخمة للمؤسسات 
التجارية بالربح» وسرعان ما ستتسلّل خيبة الأمل إلى نفس fine‏ بيانات مُتْقّل بالأعباء 
ولا يملك الخبرة الكافية إذا فشل في تحقيق النتائج الإيجابية امتوقعة. تطلب الشركات: 
في أغلب الأحيان, نموذج ele‏ بيانات يفي بكل المتطلّبات» حيث ثريده ضليعًا في جميع 
المهام» وتتوقع dic‏ أن يتمتع بالكفاءة في كل شيء, بدءًا من التحليل الإحصائي وحتى 
تخزين البيانات وأمن البيانات. 

يحظى bel‏ البيانات بأهمية كبيرة بالنسبة إلى أي aS pb‏ وللبيانات الضخمة 
مشكلاتها الأمدية Gla‏ .ق call EVV‏ مبادرة Bile‏ :يكن ASIN‏ يسيب 
مخاوف aller led cobb gals gles‏ اختراق البياتات موی شركة اتر 3 
cluly VAY‏ وجنت ya Ge‏ مورا شين ف 20013 qual WS ph) att Wy‏ 
صحي يقع labio‏ في الولايات المتحدة) وشركة كارفون ويرهاوس في ۲۰۱١‏ وموقع 
مَاي-سبيس في HVT‏ وموقع لينكد-إن الذي تعرّضٌ لعملية اختراق وقعت في ۲٠٠۲‏ 
وَلم:تكتشف. حتن 515 els phil Ley‏ اة ا :إل Zio‏ و Lhd‏ اکر 
الشركات الأخرى التي تعرّضت للاختراق أو عانت من أنواع أخرى من الانتهاكات الأمنية 
التي أدّت إلى نشر غير مصرّح به لبيانات حسّاسة. في الفصل السابع» سنتناول Garis‏ 
Pee per i RIRE erica Perey peer‏ 
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الفصل السابع 
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في يوليو 4 ag‏ قراء تطبيق أمازون كيندل أن الحياة تحاكي القن عندما اختفت 
= رواية جورج أورويل LS AMD‏ من أجهزتهم. في رواية ۱۹۸٤‏ يُستخدّم 
É‏ الذاكرة» في حرق المستندات التي dele oS‏ أو لم تعد مطلوبة. ومن AS‏ تختفي 
المستندات إلى الأيد وتّعاد كتابة التاريخ. كان من الممكن ألا يكون ذلك الأمر سوى مزحة 
مؤسفة: ولكن: في الحقيقة أريلت Calg‏ ١۹۸١ء‏ و«مزرعة الحيوان» لجورج أورويل هن 
التطبيق بسبب نزاع بين شركة أمازون والناشر. شعرّ العملاءً بالغضب لأنهم دفعوا مقابل 
هذه الكتب الإلكترونية» وافترضوا أنها بذلك أصبحت ملا لهم. ورف طالبٌ في المرحلة 
الثانوية وشخصٌ آخر قضية oS‏ تسويتها خارج المحكمة. في هذه التسوية» صرّحت 
شركة أمازون بأنها لن تمحو LES Nas‏ من تطبيقات كيندل Gall‏ على أجهزة العملاء 
إلا في ظروف Ly dies‏ في ذلك وجود «أمر قضائي أو رقابي يتطلّب هذا الحذف أو 
التعديل». عرضت أمازون على عملائها استعادة المبالغ PRN‏ أو الحصول على قسائم 
هداياء أو استعادة الكتب المحذوفة. زد على ذلك أننا لا يمكننا بيع الكتب التي اشتريناها 
على تطبيق كيندل أو إقراضهاء ومن ثمَّ يبدو أننا لا نملكها من الأساس. 
على الزغم من أن ؤاقعة كيندل كانت ببب مشكة قانونية ولم تكن Aas‏ عن سوء 
as‏ فإنها GAS‏ عن مدى سهولة حذف المستندات الإلكترونية» وكيف أنه دون وجود 
النسخ المطبوعة يمكن بسهولة محو أي نص يُرى على أنه غير مرغوب فيه أو هدّام محوًا 
تامًّا. إذا أمسكت بنسخة ورقية من هذا الكتاب وقرأتهاء فستدرك Úis‏ أنها ستظل على 
حالها كما هي دون تغييرء ولكن إذا قرأت Gl‏ شيء على الويب IL‏ فلا يمكنك أن 
تتيقن مما أنها ستظل LS‏ هي في الغد أم لا. لا يمكن أن GES‏ من شيءٍ على الويب. وبما 
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of‏ اا ينعن کا و کا دوق محرقة الولف وهام 415 يمك 
Gesell‏ بها بسهولة. قد يكون هذا الوضع GLU Gls‏ في العديد من المواقف المختلفةء 
مثل احتمالية تلاعب شخص بالسجلات الطبية الإلكترونية. حتى إن التوقيعات الرقميةء 
المصمّمة للمصادقة على المستندات الإلكترونيةء يمكن اختراقها. من ae. OLE‏ يبرز 
بعضًا من المشكلات التي تواجه أنظمة البيانات الضخمة, على غرار ضمان أنها تعمل 
على النحو المطلوب» aeh‏ ا حال ا وأنها مقاومة للتلاعُبء ولا يمكن 
الوصول إليها إلا بواسطة مَن يملكون التصريح الصحيح. 

يدور موضوع النقاش الرئيسي في هذا الفصل حول مسألة تأمين الشبكات والبيانات 
التي تحتوي عليها. وثمّة Shel‏ أساسي يُتخذ لحماية الشبكات من الوصول غير الُصرّح 
به وهو تثبيت «جدار حماية»» والذي يعزل الشبكات عن الوصول الخارجي غير zial‏ 
به عبر الإنترنت. حتى oly‏ كانت الشبكات 4955 ضد الهجمات المباشرةء كالفيروسات 
وأحصنة طروادة على سبيل JELU‏ قد تظل البيانات Dhall‏ فيها عرضة للخطرء dest‏ 
إذلاك تكن 2,084 عل سول Sl‏ ىاه ode‏ ات وهو ا alto‏ تحرف 
محاولات adeg‏ تعليمات برمجية BLS‏ ويكون هذا Sule‏ عن Gob‏ إرسال رسالة 
إلكترونية a55‏ تتضمّن ملفا SLU‏ للتنفيذء أو من خلال طلب بيانات شخصية أو أمنية Jie‏ 
كلمات المرور. ولكن» يظل الاختراق الإلكتروني هو المشكلة الرئيسية التي تواجه البيانات 
الضخمة. i‏ 

تعرّض متجر تارجت للبيع بالتجزئة للاختراق في ١٠١٠ء wily‏ هذا إلى سرقة 
تفاصيل سجلات ما 548 بنحو ٠١١‏ مليون عميلء بما في ذلك تفاصيل بطاقات ائتمان 

٠‏ مليون شخص. أفادت التقارير أنه بحلول نهاية توفمير كان المتسلّلون قد نجحوا 

في إقحام برامجهم الضارة في أغلب أجهزة نقاط البيع الخاصة بمتجر تارجت» وتمكّنوا 
من جمع سجلات بطاقات العملاء عن طريق معاملاتٍ في الوقت الحقيقي. في ذلك الحينء 
كان نظام تارجت الأمني GELS‏ على مدار الساعة من قبّل فريق من المختصين يعمل في 
بنجالور. جرى التنبيه بوجود نشاط مشبوه وتواصّل الفريق مع فريق الأمن الرئيسي في 
مينيابوليس» الذي لم يتخذء للأسفء Gi‏ إجراءاتِ بمقتضى هذه المعلومات. كان اختراق 
متجر هوم ديبوت» الذي سنتناوله في الفقرة التالية» أكبر بكثير» ولكنه استخدمَ أساليبَ 
مشابهة أدّت إلى سرقة كمية هائلة من البيانات. 
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اختراق متجر هوم ديبوت 


في A‏ سبتمبر VE‏ أعلن متجر هوم ديبوت» الذي يصف نفسه بأنه أكبر متجر بيع 
بالتجزئة لمستلزمات تحسين المنازل في العالم» في بيان صحفيء أن نظم بيانات الدفع 
قد دخات ariaa O Sisal Steel ag Taine‏ 
الهجوم قد اثر على حوالي 57 مليون بطاقة خصم مباشر وائتمان. بعبارة أخرى» سُرقت 
تفاصيل 51 مليون بطاقة خصم مباشر وائتمان. علاوة على ما سبق» شرقّت عناوين OY‏ 
مليون موقع إلكتروني. في هذه الحالة» تمكّن المخترقون من سرقة سجل أحد المورّدين 
si‏ ما أتاح لهم إمكانية الوصول بسهولة إلى النظام» ولكنء إلى جزء النظام المتعلّق بهذا 
الوك و جر GEN‏ ن طرويق مار ahs‏ اتفال اة 

استلزمت الخطوة التالية أن يتمكّن المخترقون من الوصول إلى النظام بالكامل. By‏ 
هذه المرةء كان هوم ديبوت يستخدم نظام تشغيل مايكروسوفت إكس بيء والذي كا 
يحتوي على خطأ جوهري استغله المخترقون. استهدف بعد ذلك نظام الدفع الذاتي؛ 
لأن هذا endl glial‏ كان (Ser‏ سويد .يوطنوغ حتفن التق yal, KS‏ ضبان 
المخترقون أجهزة الدفع الذاتى البالغ ۷٠٠١ Ladue‏ جهاز بيرنامج ضار ليحصلوا على 
معلومات العملاء. استخدم المخترقوح BlackPOS‏ الذي بمرت ايها اسم caluSgislSy‏ 
وهو ورتامجع كار ysis‏ في استخراج معلومات بطاقات الخصم المباشر والائتمان من 
الؤكات الظرفية GLa 8, Rail‏ الآمان» Gos‏ أن دقفن وات بظافة القع عفد 
تمريرها على إحدى المحطات الطرفية لنقاط quill‏ ولكنء يبدو أن هذه الخاصية المعروفة 
باسم التشفير من نقطة إلى نقطة لم تكن مُفكّلة؛ ومن ثم أصبحت التفاصيل متاحة أمام 
المخترقين ليستولوا عليها. 

اكثشفت هذه السرقة عندما بدأت البنوك تكتشف أنشطة احتيالية لحسابات كانت 
قد أجرت عمليات شراء أخرى من متجر هوم ديبوت منذ فترة قصيرة. كانت قد بيعت 
تفاصيل البطاقات عبر ريسكاتور» منفذ جرائم إلكترونية موجود على الويب المظلم (دارك 

All (cu‏ ف of Al‏ الشخاصى الذي اسک ها آلات تسجيل il)‏ التي تتطلّب أيضًا 
re‏ البطاقات» لم يتأثروا بهذا الهجوم. ويبدى أن السبب في ذلك أن آلات تسجيل 
النقد يتعرّف عليها الكمبيوتر المركزي عن طريق الأرقام فة فقطء ولا يمكن للمجرمين 
eT‏ بوصفها نقاط دفع. لو حدتٌ jl‏ هوم ديبوت استخدم أيضًا الأرقام 
البسيطة مع وحدات الدفع الذاتي الطرفية لديه» فلربما Got‏ في إحباط محاولة الاختراق 


1۰۱ 


البيانات الضخمة 


هذه. وعلى ذكر هذاء فقد كان نظام كايتوسكا في ذلك الوقت واحدًا من البرامج الضارة 
المتطوّرة ولا يمكن اكتشافه تقريبًا؛ ومن ad‏ فإنه في ضوء الوصول المفتوح إلى النظام 
الذي أتاحها للمخترقينء تمَّ إدخاله إلى النظام بنجاح في نهاية المطاف. 


أكبر اختراق للبيانات على الإطلاق 


في ديسمبر 5017 أعلنت شركة ياهو أن اختراقًا للبيانات Gad‏ ما يزيد على المليار 
مستخدم وقعٌ في أغسطس YNY‏ في هذا الاختراق الذي أطلق عليه أكبر عملية سرقة 
إلكترونية للبيانات 000 أى على الأقل أكبر عملية أعلنت عنها أي شركة 
على الإطلاقء يبدو | Es e‏ ملفات تعريف eS = Ae‏ من 
عن fay pyae‏ عن ve 5 V-\E & gab‏ امات Ors‏ ليون تكلم 
المفاجئ في الأمر SI‏ ياهو زعمت أن الاختراق الذي حدث في 7٠١١5‏ قد ديّرته «جهة ترعاها 
الدولة» لم تفصح عن اسمها. 


أمن الحَوْسَّبة السحابية 


تزداد قائمة الاختراقات الأمنية للبيانات الضخمة US‏ يوم تقرييًا. وأضحت سرقة البيانات: 
واحتجاز البيانات مقابل طلب فدية» وتخريب البيانات» مخاوف كبرى في Galle‏ الحالي 
القائم في أساسه على البيانات. AES‏ الكثير من المخاوف المتعلّقة بأمن البيانات الشخصية 
الرقمية وملكيتها. قبل العصر الرقمي كنا نحتفظ بالصور في ألبومات» وكان نيجاتيف 
الصور هو نسختنا الاحتياطية. بعد lli‏ أصبحنا نخرّن صورنا إلكترونيًا على الأقراص 
الصلبة لأجهزة الكمبيوتر الخاصة. ولأن أجهزة الكمبيوتر كانت غرضة لأن Jhan‏ 
اقتضت الحكمة أن نحتفظ بنسخ احتياطيةء ولكنء على الأقل لم تكن SLAM‏ متاحةٌ 
للجميع. أصبح الكثير منا الآن يُخْرُّنون البيانات في السحابة الإلكترونية. ونظرًا Lal‏ 
تتطلّبه الصورء ومقاطع الفيديوء والأفلام المنزلية من مساحة تخزين كبيرةء فإن السحابة 
الإلكترونية بدت Kihi‏ من هذا المنظور. عندما تخرّن ملفاتك في السحابة الإلكترونيةء 
فإنك ترفعها إلى مركز بيانات - بل إنها gis‏ على eal‏ على عدة مراكز بيانات — 
ومن ثمَّ يُحتفظ ASL‏ من نسخة واحدة منها. 
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إذا خرّنت JS‏ صورك في السحابة الإلكترونيةء فمن غير الوارد على BLY‏ بفضل 
الأنظمة المتطوّرة المعاصرة, أن تفقدها. وعلى النقيضء إذا أردت أن تحذف lsd‏ ريما 
صورةً أو مقطع فيديو» فمن الصعب أن تتأكّد من أن US‏ النسخ قد حُذقت. وسيكون 
عليك أن تعتمد بصفة أساسية على مزوّد الخدمة في ذلك. Aah‏ موضوع مهم آخر وهو 
التحكم فيمّن يتاح لهم الوصول إلى هذه الصور وغيرها من البيانات التي رفعتها إلى 
السحابة الإلكترونية. إذا أردنا تأمين البيانات الضخمة: فلا بد من التشفير. 


يشي LS nea‏ :ذكرنا باختصبان ق"الفضل gaol‏ إل السات ااه beg‏ 
الملفات حتى لا يمكن قراءتها بسهولة» ويعود الأسلوب الأساسي إلى العصر الروماني 
على Jal‏ تقدير. يصف جايوس سويتونيوس» في كتابه «القياصرة الاثنا «phe‏ كيف أن 
يوليوس قيصر شقر الوثائق عن Gb‏ إزاحة الحروف ges‏ ثلاثة حروف إلى اليسار. 
باستخدام هذا الأسلوب»ء تشفر كلمة secret‏ إلى aes pees‏ هذه الشفرة ياسم 
«شفرة القيصر»» وهي شفرة ليس من الضعب فكُهاء إلا أن أكثر الشفرات المستخدمة 
ÉIL‏ أمانًا SE‏ أسلوب الإزاحة كجزء من الخوارزمية الُستخدّمة. 

في ۱۹۹۷ Si.‏ أفضل أسلوب تشفير متاح للعامةء وهو معيار تشفير البيانات (دي 
إي GI (Gul‏ من الممكن فك شفرته» ويرجع هذا بدرجة كبيرة إلى زيادة القدرة الحاسوبية 
المتاحة وطول مفتاح التشفير القصير Gaui‏ الذي يبلغ 7 دبت. على الرغم من أن هذا 
الأسلوب يديد TY‏ من LOSS‏ المفاتيح AIS all ADA‏ فإنه Say‏ فك شفرة الرسائل 
عن طريق اختبار كل مفتاح إلى حين العثور على المفتاح الصحيح. وهذا ما حدث بالفعل 
عام ۱۹۹۸ء في قل من dela VE‏ باستخدام جهاز ديب ALS‏ وهو جهاز كمبيوتر diata‏ 
مؤسسة الحدود الإلكترونية خصوصًا لهذا الغرض. 

في ۱۹۹۷ء أجرى sgall‏ الوطني للمعايير والتقنية في الولايات المتحدة الأمريكية, 
لتخوؤّفه من أن معيار تشفير البيانات يفتقر إلى الأمان اللازم لحماية الوثائق الفائقة 
dy pull‏ مسابقة مفتوحة على مستوى العالّم للتوصل إلى أسلوب تشفير أفضل من 
تشفير البيانات. انتهت المسابقة في ٠٠١١‏ باختيار خوارزمية معيار التشفير المتقدّم. 
cls‏ الخوارزمية تحت Goud‏ خوارزمية ريندايل» الذي دمج بين اسمّي مُبتكرّيها 
البلجيكيّين جون دايمن وفينسنت ريمن. 
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معيار التشفير المتقدّم عبارة عن خوارزمية برمجية لتشفير النصوص يمكن من 
خلالها الاختيار من بين مجموعة من مفاتيح التشفير الأكثر طولًا: ۱۲۸بت» NAY gh‏ 
أو aY oT‏ بالنسبة إلى طول مفتاح التشفير البالغ coal VA‏ تحتاج الخوارزمية إلى تسع 
جولات معالجة تتكوّن كل منها من aul‏ خطوات. بالإضافة إلى جولة أخيرة مكونة من 
ثلاث خطوات فقط. يجري تنفيذ خوارزمية معيار التشفير المتقدّم على نحو تكراريء 
وتّجري عددًا Gus‏ من العمليات الحاسوبية على مصفوفات» فقط نوع العمليات الحسابية 
الذي oe‏ الأفضل إجراؤه باستخدام أجهزة الكمبيوتر. ولكن» يمكننا أن نصف العملية 
على نحو غير متخصّص من دون التطرّق إلى ذلك التحويلات الرياضية. 

يبدأ معيار التشفير المتقدّم بتطبيق مفتاح تشفير على النص الذي نرغب في تشفيره. 
بعد ذلك لن نتمكّن من تمييز النص» ولكن بما أننا نعرف مفتاح التشفيرء يمكننا أن نفك 
pads‏ النص بسهولة؛ ومن Ad‏ يستلزم الأمر مزيدًا من الخطوات. تتضمّن الخطوة التالية 
استبدال كل حرف yas‏ آخر باستخدام جدول مرجعي خاص peut‏ مربع ريندايل 
للاستبدال. ومجدذاء ذا كان الذينا روب SaaS aca Mees Sd plang‏ عل مدو عقني 
وفك تشفير الرسالة. CES‏ شفرة القيصرء التي قد م يه إزاحة الحروف إلى اليسارء 
وعملية استبدال أخيرة للحروف إحدى الجولات. د 
VESES]‏ باستخدام مفتاح مختلف وهكذاء حتى تكتمل جميع الجولات. وبالطبع يجب أن 
نكون قادرين على فك الشفرة؛ وفيما يخص هذه الخوارزمية يمكن أن تعكس هذه العملية. 

بالنسبة إلى مفتاح التشفير البالغ طوله eu NAY‏ ثمة ٠١‏ جولة إجمالًا. ولزيدٍ من 
الا وهو Le‏ كمدق aka‏ مقا فر أطول» يمكن اكام شتا abel‏ 
البالغ طوله 57"بتء إلا أن أغلب المستخدمين» بما في ذلك جوجل وأمازون» يرون أن 
مفتاح التشفير الذي طوله ٠١۸‏ كاف لتلبية المتطلبات الأمنية لبياناتهم الضخمة. إن معيار 
التشفير المتقدّم آمن» ولم يتمكّن dal‏ من اختراقه حتى الآن» ما جعل العديد من الحكومات 
تطلب من شركاتٍ كبرى - مثل أبل وجوجل - أن تتيح مداخل سرية إلى المادة المشفرة. 


يستخدّم الناتج بعد ذلك في بدء جولة 


أمن البريد الإلكتروني 


y E‏ > کان برل ما يزيد على ٠‏ ملزان وسالة إلكازونية عن 
Llp‏ خبيثة. وتكون أغلب الرسائل الإلكترونية غير Byka‏ ما يجعل محتواها عُرضةٌ لأن 
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Laj RO A‏ رسال إلكتوودية عير قفر Gye‏ اورا إلى“الملكة 
المتحدة على سبيل SM‏ فإنها acid‏ إلى «حزم» من البيانات وتَنقّل عبر خادم بريد متصل 
بالإنترنت. يتكوّن الإنترنت في الأساس من شبكة عالمية ضخمة من الأسلاك الموجودة فوق 
الأرض» وتحت الأرضء وتحت المحيطات, بالإضافة إلى أبراج الهواتف المحمولة والأقمار 
الصناعية. والقارة الوحيدة غير الموصّلة بكابلات عابرة للمحيطات هى القارة القطبية 
الجنوبية (أنتاركتيكا). ١‏ 

ومن ثم على الرغم من الاعتقاد الشائع بأن الإنترنت والحَوْسَبة المستندة إلى السحابة 
الإلكترونية لا سلكيان» فإنها ليست كذلك على الإطلاق؛ فالبيانات JES‏ عبر ALIS‏ ألياف 
ضوئية ممدودة تحت المحيطات. وتّنقل جميع الاتصالات الرقمية بين القارات تقرييًا بهذه 
الطريقة. ستَرسَل رسالتي الإلكترونية عبر ALIS‏ ألياف ضوئية عابرة للمحيط الأطلنطيء 
حتى وإن كنت أستخدم خدمة حوسبة سحابية. تستحضر السحاية aig ASI‏ تلك 
الكلمة الجذّابة الواسعة الانتشار, إلى الذهن» صورًا لأقمار صناعية ترسل البيانات إلى 
جميع أنحاء العالم» ولكن» في الواقع تمتد جذور الخدمات السحابية عميقًا في شبكة 
de se‏ من مراكز البيانات التي توفر الوصول إلى الإنترنت» عبر كابلاتٍ في الغالب. 

توفّر ALIS‏ الألياف الضوئية أسرع وسيلة لنقل البيانات» وعليه» فهي تحظى 
بأفضلية على الأقمار الصناعية بوجه ple‏ وينتج عن الأبحاث aksil‏ في تقنية الألياف 
الضوئية سرعات نقل بيانات أعلى من أي وقت مضى. لطالما كانت الكابلات العابرة للمحيط 
الأطلنطي هدقًا لهجمات غريبة وغير متوقعةء Ly‏ في ذلك هجمات أسماك القرش بقصد 
قضمها وقطعها. على الرغم من أن هجمات أسماك القرش على الكابلات» طبقا للجنة 
الدولية لحماية الكابلات» مسئولة فقط عن أقل من ZY‏ من الأعطال ikal‏ أصبحت 
الكابلات في المناطق الأكثر عُرضةٌ للخطر تَحمّى Gils‏ باستخدام ألياف الكيفلار. بافتراض 
أن الكابلات العابرة للمحيط الأطلنطي لا تواجه أي مشكلات مع أسماك القرش الفضوليةء 
أو الحكومات الُعاديةء أو صيادي الأسماك غير المكترثين» وأن رسالتي الإلكترونية بلغت 
البر الرئيسي للمملكة المتحدة وتواصل طريقهاء Lay‏ تتعرّض في هذه المرحلةء على غرار 
Lane‏ من بيانات الإنترنت» للاعتراض. في يونيى Spe YNY‏ إدوارد سنودن مستندات 
تكشف عن أن مكاتب الاتصالات الحكومية في المملكة المتحدة تتنصّت على كميات هائلة 
من البيانات التي تصل البلاد عبر حوالي ٠٠١‏ كابل عابر للمحيط الأطلنطيء باستخدام 
نظام aud‏ تمبورا. 


البيانات الضخمة 
joio Aust‏ 
إدوارد سنودن خبيرٌ أمريكيٌ محترف في أجهزة الكمبيوتر, اتهم بالتجسّس في ۲۰٠۲‏ بعد 
أن Fe‏ معلومات dpe‏ من وكالة الأمن القومي الأمريكية. وضعت هذه القضية الذائعة 
الشهرة إمكانات المراقبة الشاملة للحكومة تحت منظار dole‏ الشعبء وأعربّ على نطاق 
واسع عن مخاوف تتعلّق بخصوصية الأفراد. Gas‏ سنودن على الكثير من الجوائز منذ 
أن أقدم على هذا الفعل» والتى شملت انتخابه Lid,‏ لجامعة جلاسكوء وجائزة شخصية 
العام من جريدة «الجارديان» لعام THVT‏ والترشح لجائزة نويل للسلام عن الأعوام 
AKART Y-\O, 5‏ كما حصل على دعم منظمة العفو الدولية بوصفه خا 
asd pái‏ لبلده بوصفه أحد كاشفى الفساد. ولكن» يعارض المسئولون الحكوميون 
والسياسيون الأمريكيون هذا الرأي. 

في يونيو YNY‏ أفادت جريدة «الجارديان» في المملكة المتحدة بأن وكالة الأمن 
القومي الأمريكية تجمع بيانات تعريفٍ من sue‏ من شبكات الهواتف الكبرى في الولايات 
المتحدة. وسرعان ما أعقبّ هذا التقرير CASS‏ عن برنامج aud‏ بريزم» Gilly‏ كان 
يُستخدم في جمع بيانات من الإنترنت وتخزينهاء تتعلّق بمواطنين أجانب يتواصلون مع 
Jats Gala‏ الولفات Buea!‏ بعد ذلك طهر عونل كور Go a‏ التسروياف ال ديق 
كلا من الولايات المتحدة والمملكة المتحدة. كان إدوارد سنودن» موظف شركة يوز ألين 
هو مصدر هذه التسريبات التي أرسلها إلى إعلاميين وظنّ أنه يمكنه الوثوق في أنهم لن 
ينشروها دون دراسة متأنية. لا يتسع المجالُ في هذا الكتاب Sal‏ دوافع سنودن والمسائل 
القانونية ALAR!‏ ولكن من الواضح أنه كان يعتقد أن ما بدأ كتجسّس مشروع على 
الدول الأخرى قد انقلبّ على نفسه. وأصبحت وكالة الأمن القومى الأمريكية تتجسّسء» 
بطريقة غير قانونية» على جميع المواطنين الأمريكيين. 

توفر أداتا تجريف الويبء DownThemAll‏ التى هى Gale‏ متاح لمتصفح موزيلا 
فايرفوكسء وبرنامج wget‏ وسيلة للتنزيل السريع لكامل محتويات المواقع الإلكترونية أو 
lane‏ من بيانات الويب. استخدم سنودن ode‏ التطبيقّينء المتاحّين للمستخدمين CaM‏ 
لهم بالوصول إلى شبكات وكالة الأمن القومي dy pull‏ في تنزيل كميات هائلة من المعلومات 
ونسخها. كما Jai‏ كميات ضخمةٌ من البيانات الشديدة الحساسية من نظام كمبيوتر إلى 
آخر. ولكى Sab‏ من القيام lls‏ كان بحاجة إلى أسماء المستخدمين وكلمات المرور 
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التي يحتفظ بها مديرو الأنظمة عادة. ومن AS‏ تمكّن من الوصول بسهولة إلى الكثير 
من المستندات السرية التي سرقهاء ولكن ليس جميعها. ولكي يحصل على المستندات 
الفائقة السريةء كان عليه استخدام تفاصيل المصادقة الخاصة بحسابات المستخدمين 
ذات المستوى LEM‏ الأمر الذي كان من المفترض أن تحول بروتوكولات الأمان دون 
حدوثه. ولكنء بما أنه مَن أنشأ هذه الحسابات ويمتلك امتيازات مسئول النظام» كان 
alas‏ تفاصيل هذه الحسابات. تمن سنودن أيضًا من إقناع موظف واحد على الأقل من 
موظفي وكالة الأمن القوميء Ge‏ يملكون olay pad‏ أمنيةً أعلى Leo‏ يملكهاء بأن يخبروه 
بكلمات مرورهم. 

daly‏ نسح سنودن حوالي ٠,١‏ مليون مستند فائق السرية plo‏ حوالي ٠٠١‏ ألف 
مستندٍ منها (كان سنودن يدرك أنه لا يجدر به نشر جميع المستندات المسروقة علانية 
وكان bis‏ للغاية فيما يتعلّق بالمستندات التي يجب نشرها) إلى مراسلين صحفيين 
موثوقين» ولكن لم ph‏ من هذه المستندات إلا عدد قليل Grud‏ في نهاية المطاف. 

على الرغم من أن سنودن لم يُفصح ILI‏ عن كامل التفاصيلء فيبدى أنه تمگن 
من نسخ البيانات على محركات أقراص محمولةء لم يواجه صعوبةٌ في أخذها das‏ عند 
مغادرته العمل كل يوم. ومن Yall‏ أن الإجراءات الأمنية التي كان من شأنها أن تمنع 
سنودن من نقل هذه المستندات لم تكن كافية. كان من شأن التفتيش الجسدي البسيط 
عند الخروج من slau‏ أن Gi Gass‏ أجهزة محمولةء كما أن كاميرات المراقبة في 
المكاتب كانت ستشير إلى وجود نشاط مشبوه. في ديسمبر aa) ,5١17‏ مجلس النواب 
الأمريكي النقاب عن مستندٍ بتاريخ سبتمير VNT‏ وكان جزءٌ كبير die Me‏ محجوياء 
pals‏ سنودن كشخص pais‏ كذلك طبيعة المستندات المسرّبة وتأثيرها. يتضح من هذا 
المستند أنَّ وكالة الأمن القومي لم Fibs‏ إجراءاتٍ أمنية كافية» ونتيجةٌ لهذا بدأ تطبيق 
مبادرة تأمين الإنترنت abe‏ ذلك الحين» ولكنها لم تدخل حيز التنفيذ الكامل. 

كان سنودن يمتلك امتيازات مسئول نظام dels‏ ولكن طبقًا للطبيعة الشديدة 
الحساسية للبيانات» كان السماح لشخص واحد بامتلاك حق الوصول الكامل إليها من 
دون وجود أي احتياطاتٍ bel‏ غير مقبول. على سبيل JEL‏ ريما كان Gl‏ استيفاء 
بيانات اعتماد شخصّين عند محاولة الوصول إلى البيانات أو نقلها ail Gals‏ سنودن 
من نسخ الملفات بطريقة غير مشروعة. ومن الغريب LAÍ‏ أن سنودن تمگن من توصيل 
محرك أقراص «يو إس بي» (الناقل التسلسلي (elll‏ ونسخ أي شيءٍ يريد. وكان من 
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بين إجراءات الأمان البسيطة للغاية تعطيل منافذ «دي في دي» (أقراص الفيديو الرقمية) 
و«يو إس بي» (الناقل التسلسلي العام) أو عدم تركيبها من الأساس. كان من GLE‏ إضافة 
مصادقة إضافية باستخدام مسح شبكية العين إلى طلب كلمة المرور أن kes‏ إلى حَدَّ 
كبير على سنودن أن Sab‏ حتى من الوصول إلى هذه المستندات الفائقة السرية. تتسم 
أسنَالين: GLA‏ المعاصترة ينها :متطورة :ويضعي اختراقها حال اسككذامها قل gall‏ 
الصحيح. 

في أواخر VV‏ كان البحث ب «إدوارد سنودن» على محرك بحث dasa‏ يعطى أكثر 
من ۲۷ مليون نتيجة بحث خلال ما يزيد قليلًا عن ثانية واحدة» وكان مصطلح البحث 
«سنودن» يعطي £0 مليون نتيجة بحث. وبما أن الكثير من هذه المواقع تمنح إمكانية 
الوصول إلى هذه المستندات A Aub)‏ الصتفة على أنها «سرية للغاية» أو تعرضهاء فقد 
أصبحت بالتأكيد في المجال العام العالمي» ولا Ub‏ في أنها ستظل كذلك. ويعيش إدوارد 
سنودن Úlla‏ في روسيا. 

على النقيض من قضية إدوارد سنودن» fi‏ ويكيليكس dad‏ مختلفة تمامًا. 


ويكيليكس 
ويكيليكس هى منظمة ضخمة لكشف الفساد والإبلاغ عن المخالفات عبر الإنترنت» تهدف 
إلى نشر المستندات السرية. تُموّل المنظمة ole lly‏ وأغلب العاملين بها من المتطوّعين, 
ولكق سدق أنها Hae ae‏ موا مى aaa a TLRS aint‏ 18 عقت 
ويكيليكس أنها نشرت gl)‏ سرّبت) أكثر من ٠١‏ ملايين مستند. تحافظ ويكيليكس على 
صورتها العامة الجيدة عبر موقعها ومن خلال موقعّي تويتر وفيسبوك. 

تصدّرت منظمةٌ ويكيليكس» المثيرة للجدل؛ ورئيسُها جوليان أسانج عناوينَ الصحف 
في YY‏ أكتوير 2٠٠١‏ عندما نشرت كمية كبيرة للغاية من البيانات السرية, ٠۹۱۸۲۳۲‏ 
مستندًاء تحت عنوان «سجلات حرب العراق». cele‏ هذه المستندات بعد مستنداتٍ يبلغ 
lasse‏ حوالي Vo‏ ألف مستند تتألّف منها «يوميات الحرب الأفغانية» التى تسرّبت بالفعل 
١ ed‏ 

كان أحد جنود الجيش الأمريكيء برادلي مانينج» هو المسئول عن كلا التسريبّين. كان 
الجندي يعمل Das‏ استخباراتيًا في العراق» وأخذ معه قرصًا مدمجًا إلى العمل» ونسخ 
مستندات dpe‏ من جهاز كمبيوتر شخصي من المفترض أنه آمن. بسبب هذا الفعلء 


8 


أمن البيانات الضخمة وقضية سنودن 


حُكم على برادلي aisle‏ الذي يُعرف الآن باسم تشيلسي مانينج sas)‏ تحوله (Guia‏ 
في ٠١17‏ بالسجن Le Yo Bub‏ بعد إدانته من قبّل المحكمة العسكرية لانتهاكه قانون 
gauai‏ وجرائم أخرى old‏ صلة. وخفف الرئيس الأمريكى السابق باراك أوياما الحُكم 
على تشيلسي مانينج في يناير ۷٠۲۰ء‏ قبل ترك منصبه. وأطلق سراح الآنسة gale‏ التى 
كانت تعالج من اضطراب الهُوية الجنسية أثناء فترة حبسهاء في .5١11/ gale WV‏ 

على الرغم من الانتقادات الشديدة التى تعرّضت لها منظمة ويكيليكس من السياسيين 
TT‏ 
الدولية عام ٠٠١9‏ وجريدة «ذي إيكونوميست» «Ys +A ale‏ ضمن قائمة AA sos‏ 
المنظمات الأخرى. ae‏ لوقع ويكيليكس, 285 جوليان ن أسانج لجائزة نوبل للسلام لستة 
أعوام متتالية» من ٠‏ إلى .7١16‏ لا تفصح لجنة جائزة das‏ عن أسماء الُرشحين 
لنيلها إلا بعد مرور Gf Lele ٠١‏ أعضاء لجنة الترشيح, الذين يتعنّن agale‏ استيفاءً 
المعايير الصارمة للجنة جائزة السلام» WAS‏ ما يُفصحون عن أسماء مُرَشْحِيهم Úle‏ 
على سبيل المثال» في ١٠١۲ء‏ رشح جوليان أسانج من قيّل البرلماني النرويجي سنور فالن 
Les‏ منه لمنظمة ويكيليكس على كشفها للانتهاكات المزعومة لحقوق الإنسان. 25١١١ Bo‏ 
Las‏ أسانج على دعم عضو مجلس النواب البريطاني السابق جورج colle‏ وفي أوائل 
7 نادى فريق دعم من الأكاديميين بحصول أسانج على الجائزة. 

ولكن» بحلول نهاية 52١١7‏ تحوّلت الآراء ضد أسانج وويكيليكسء وهو ما يُعزى 
Gija‏ على أقل تقدير إلى مزاعم التحيّز في تقاريرها. استندت الاعتراضات المثارة ضد 
كن Uf‏ مارت جتعلقة sli gol‏ ووهه موف الات 
ds pully‏ الحكومية» وحماية المصادر المحلية في مناطق النزاعات» والمصلحة العامة بوجه 
عام. ثم ازدادت الأوضاع تعقيدًا بالنسبة إلى جوليان أسانج وويكيليكس. على سبيل 
«JEU‏ في oe ٠ ١1‏ رسائل إلكترونية في أنسب وقتٍ للإضرار بترشح هيلاري كلينتون 
للرئاسةء الأمر الذي أثار ت تساؤلات تتعلّق بموضوعية ويكيليكس» وأثار انتقادات كبيرة من 
عدد من المصادر التى تحظى باحترام كبير. 

بغض النظر Lee‏ إذا كنت من المؤْيّدين لأفعال جوليان أسانج وويكيليكس أو 
المعارضين لهاء ولا شكَّ أن هذا هو حال الناس عمومًا Gus‏ تتباين آراؤهم تجاه القضية 
المطروحة؛ فإن أحد أهم Gaal UL‏ اليمة هو Le‏ إذا GIS‏ من الممعق BNE! Ba‏ موقع 
ويكيليكس آم لا. بما أن ويكيليكس تحتفظ ببياناتها على العديد من الخوادم في جميع 
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البيانات الضخمة 


أنحاء العالم» بعضها في olab‏ متعاطفة معهاء فمن غير المرجّح أن يُغلّق الموقع بالكاملء 
ses‏ واف Oak al‏ أذ oie‏ غيز enews‏ كيه odie‏ امعان ukala‏ من skedi‏ 
الاتققافية say‏ كل سريت cyst‏ .ويكيليكس ملف دامج fats‏ الود غير الف 
عنه لهذا الملف في أنه في حال حدوث أي شيء لأسانج أو إغلاق موقع ويكيليكس» فسوف 
يُرسّل مفتاح التشفير الخاص بملف التأمين ليصبح متاحًا على SU‏ يستخدم Susi‏ ملف 
تأمين من ويكيليكس Glas‏ التشفير المتقدّم بمفتاح تشفير YOT‏ ومن ثم فمن غير 
المرجّح بدرجة كبيرة أن يتعرّض للاختراق. 

شب خلافٌ بين إدوارد سنودن وويكيليكس منذ Lvs ١7 ple‏ ويتعلّق الأمر بالطريقة 
التي اتبعها IS‏ منهما في إدارة تسريبات البيانات. كان سنودن قد klas‏ ملفاته إلى صحفيين 
موثوقين انتقوا Gls‏ المستندات التي يجب تسريبها. كما ELI‏ مسئولون حكوميون 
أمريكيون بالأمر elds‏ وبناءً على نصائحهم» لم hub‏ المزيد من المستندات بسبب 
مخاوف تتعلّق GAL‏ القومي. وحتى Mase‏ هذاء ثمة الكثير من المستندات التي لم يُفصَح 
عنها. ولكنء يبدو أن ويكيليكس تنشر بياناتها من دون أن Jis‏ جهدًا كبيرًا لحماية 
العلوماه dead dll‏ ولا تزال ويكيليكس سس إلى pas‏ المعلومات من كاشفي atasi‏ 
ولكن» لم تعد موثوقية واف الجافاك TE‏ و ف أن ما SiS LNs)‏ الاه 
التي تقدّمها تشير إلى أنها نزيهة بالكامل. تنشر ويكيليكس» على موقعهاء تعليماتٍ تتعلّق 
بكيفية استخدام آلية تُسِمَّى تور )452 الطبقات» أو حرفيًا (al doth‏ في إرسال 
البيانات دون الكشف عن الهُوية وضمان الخصوصيةء ولكنء لا يشترط بالضرورة أن 
تكون GAS‏ فسادٍ لكي تستخدم هذه الآلية. 


متصفح تور والويب المظلم 


قرّرت جانيت فيرتيسي» وهي Iiu‏ مساعد في قسم ple‏ الاجتماع بجامعة برينستونء 
a ol‏ ون من بان tetas less‏ ارين 

اممسؤّقين عبر الإنترنت ؛ ومن ab‏ منع أن تصبح معلوماتها الشخصية جزءًا من البيانات 
الضخمة. في مقالٍ نشر في مجلة «تايم» في مايى 15 LY‏ قصّت د. فيرتيسي تجربتها. كانت 
yolks eats‏ خو abhi‏ شبكات التواصل الاجتماعيء aiy‏ 
متصفّح تور واستخدمته في طلب الكثير من أغراض JALI‏ ودفعت مقابل مشترياتها 
هن المتاحن a‏ كان كل ما فل قادرا ماعا ولعدها دمحت ق Sabiai‏ 
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أمن البيانات الضخمة وقضية سنودن 


اختيار عدم المشاركة Ss Sal‏ مكلف ويستهلك الكثير من الوقت» وجعلها تبدوء طبقًا لكلماتهاء 
«مواطنة سيئة». ولكن» يستحق متصفح تون أت ن نتناوله بالبحث وبالدراسة»ء ab‏ أنه 
جعل الاكتورة eal‏ تشعر بالأمان وتحافظ على خصوصيتها من برامج QI‏ 

abuse‏ لون Kas ge Ube‏ تقدوة من الخواية اا النحرية EAI‏ ق 
ot‏ من أجل توفير طريقة لاستخدام الإنترنت دون الكشف عن الهوية؛ ومن ثم 
تجنب التتبّع وجمع البيانات الشخصية. . ومتصفّح تور مشروعٌ مستمر يهدف إلى تطوير 
وتحسين بيئات إخفاء الهُويات عبر الإنترنت المفتوحة المصدرء والتي يمكن GI‏ من المهتمين 
بالخصوصية ااا وحمل ney‏ فق طريق کو یا ا ذلك ف 
الإرسالء ثم gas‏ عبر Ub!‏ جزء من العنوان» بما في ذلك عنوان بروتوكول الإنترنت 
بالأساس؛ لأن الشخص يمكن أن يُعثر عليه بسهولة عن طريق التتبّع العكسي بناءً على 
هذه المعلومات. بعد ذلك 45.55 حُزمة البيانات الناتجة عبر نظام من الخوادم eee‏ 
التي يستضيفها متطوعون» قبل أن تصل إلى وجهتها الأخيرة. 

yall الاتمخكداء الجا للهح تور ف اتك اماه هن قل قرات‎ do) Jiao 
صمّموه في الأساس» وصحفيي التحقيقات الذين يرغبون في حماية‎ Quill الأمريكية‎ 
مصادرهم ومعلوماتهم؛ والمواطنين العاديين الذين يرغبون في حماية خصوصيتهم.‎ 
الكحادية وا اها :عن‎ fab !الأحتفاظ‎ Jol فصقم تون من‎ lS tll تدم‎ 
الشركات الأخرى: وتستخدمه الحكومات في حماية مصادر المعلومات الحسّاسة بالإضافة‎ 
بيانٌ صحفي عن مشروع متصفح ثور قائمةٌ ببعض المواد‎ old إلى المعلومات نفسها.‎ 
VEN ۱۹۹۹ الإخبارية التى تضمّنت وا تور خلال الفترة ما بين‎ 

ماعن dash‏ الاستخدام السلبية» فقد استخدمً المجرمون الإلكترونيون شبكة ثور 
لإخفاء هوياتهم على نطاق واسع. ويمكن الوصول إلى المواقع الإلكترونية عبر الخدمات 
التي جرى إخفاؤها بواسطة برنامج تورء والتي تحتوي على اللاحقة الإنجليزية Onion.‏ 
Got‏ فق هارا بك افا انق ذلك لواقم قير ik HR‏ عن اتوت sell‏ 
والتي تستخدم في تجارة المخدرات» والإباحية» وغسل الأموال. على سبيل المثال» كان 
الوصول إلى موقع «سيلك روود»» وهو Sja‏ من و co‏ « ويشتهر ails‏ منصة لبيع 
المخدرات وتوريد العقاقير المحظورة يتم عبر متصفح sh‏ ما صكّب على جهات إنفاذ 
القانون تتيّعه. بعد القبض على روس ويليام أولبريخت» كانت هناك محاكمة قضائية 
ers‏ وأدين بعد ذلك Gags‏ إنشاء موقع اسيك رووفه ipil‏ تحت الاسم الشتعان 
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البيانات الضخمة 


«القيطان الرهيب روبرتس». أغلق الموقع ولكنه عاود الظهور من coda‏ وفي 5.15 
ظهرت نسخته الثالثة الجديدة تحت اسم «سيلك روود ۳,۰». 


الويب الخة 


يشير الويب الخفي أو العميق (ديب ويب) إلى جميع المواقع التي لا يمكن فهرستها 
بواسطة محركات البحث المعتادة dis‏ جوجلء وبينج» وياهو. ويتضمّن مواقع مشروعة 
بالإضافة إلى المواقع التي يتكوّن منها الويب المظلم (دارك ويب). وتشير التقديرات إلى 
أن الويب العميق أكبر بكثير من الويب السطحي المألوفء ولكن يظل من الصعب تقدير 
حجم هذا العام الخفي من البيانات الضخمة حتى باستخدام محركات بحث Lahi‏ 


للويب الخفي. 


NAY 


الفصل الثامن 


البيانات الضخمة والمجتمع 


الروبوتات والوظائف 
alle SLES otis‏ الاقتصاد البارز جون مينارد كينز خلال الكساد الاقتصادي البريطاني 
في Ley 117١‏ ستبدى عليه الحياة Ligh‏ بعد قرن مان E‏ اناع 
وظاقف جديدة ف abali‏ مهورها cal!‏ ورت ال الذي كان زراعيًا في الأساس. 
كان يُعتقد أن الأعمال التى تتطلّب عددًا كبيرًا من العمالة ستؤديها الآلات في نهاية المطافء 
الأمر الذي سيؤدي بالبعض إلى البطالة؛ وبالبعض الآخر إلى العمل لعدد قليل Wp‏ من أيام 
الأسبوع. كان كينز مهتمًا بوجه خاص بكيفية استخدام الناس لأوقات الفراغ الأطول بعد 
أن تُحرّرهم التطورات التقنية من قيود المتطلبات الْلّة للعمل مقابل أجر. ريما كانت 
المسألة الأكثر إلحاحًا هي مسألة الدعم المالي التي تؤدي إلى الاقتراح ob‏ دخلا أساسيًا 
اما مق شان أن يور وسئلة مواكة AUS‏ عدن الوظاكف القاحة: 

Ge baad Gigs‏ هدان القرق العشوية: ا تصن due‏ الوظطائف محال الصتافة 
بسبب الآلات الأكثر تطؤرًاء وعلى الرغم من أن الكثير من خطوط الإنتاج» على سبيل المثالء 
قد أصبحت All‏ بالكامل منذ عقود» OL‏ أسبوع العمل الذي يستمر لخمس عشرة ساعةٌ 
فقط الذي ths‏ به us‏ لم Giai‏ ويبدو أنه كان من المستبعد أن يتحقق في المستقبل 
القريب. لا شك في أن الثورة الرقمية Kaiu‏ من أنماط العمالة» مثما فعلت الثورة 
الصناعية تمامًاء ولكن بطرق من المستبعد أن نتمكّن من التنبق بها بدقة. ومع تطور 
تقنية «إنترنت الأشياء»» أصبح اعتماد عالمنا على البيانات في تزايّد. سيلعب استخدام 
نتائج تحليل البيانات الضخمة في الوقت الحقيقى في اتخاذ القرارات والإجراءات دورًا 
تزداد أهميته في مجتمعنا Lag;‏ بعد يوم. ١‏ 


البيانات الضخمة 


iá‏ مقترحات تقول Sl‏ دور البشر سيقتصر bäi‏ على صناعة الآلات ويرمحتهاء 
ولكن هذا محض تخمينء كما أن هذا المجالء على أي Sle‏ من مجالات العمل المتخصّصة 
التي يمكننا أن نتوقع على نحو واقعي أن نرى الروبوتات تستبدل pill‏ فيها. على سبيل 
المثال» is.‏ التشخيص الطبي الآلي المتطوّر من sse‏ العمالة الطبية. ومن المرجّح أن 
يفعل الجرّاحون الآليون» ذوو القدرات الكبيرة الشبيهة بقدرات نظام واتسون من شركة 
آي بي إمء المثل. كما ستتطوّر معالجة اللغات الطبيعية» وهي Jla‏ آخر من مجالات 
ae CED a‏ إن ht‏ مها ع ديد te‏ ]نا كا اده إل all Sigs‏ 
إلى طبيب» على الأقل عندما لا نتحدّث إليه Gog‏ لوجه. 

OSs‏ من الصعب التنبق بالوظائف التي سيؤديها البشر في حال سيطرت الروبوتات 
على الكثير من الأدوار الحالية. من المفترض أن يكون الابتكار مجالًا Gade‏ البشر دون 
غيرهم» إلا أنَّ slale‏ في مجال الكمبيوترء يعملون بالتعاون Lad‏ بينهم في جامعتّي 
كامبريدج وآبريستويثء طوّروا UÍ Lille‏ أسمّوه Bad pul‏ آدم في وضع فرضياتٍ جديدة 
في مجال علم الجينوم واختبارهاء الأمر الذي oll‏ إلى اكتشافات علمية جديدة. وشهدت 
الأبحاث في هذا المجال L535‏ أكبر عندما Rai‏ فريق من جامعة مانشستر في تطوير aial‏ 
وهو روبوت يعمل على تصميم عقاقير للأمراض الاستوائية. وطبّق كلا المشروكين أساليبَ 
الذكاء الاصطناعي. 

تتجلّى براعة الروائيين على أنها ذات طابع بشري فريد؛ فهي gL‏ الخبرات والمشاعر 
والخيالء ولكن حتى هذا المجال الإبداعي لم يسلم من 952 الروبوتات. تقبل جائزة نيكي 
هوشي شينيشي الأدبية روايات Lf‏ أو شارك في تأليفها مؤلّفون غير بشريين. في ۲۰٠٠‏ 
اجتازت أربعٌ رواياتِ اشترك في تأليفها مؤْلّفون من البشر وأجهزة الكمبيوتر المرحلة الأولى 
من المسابقة» من = alas‏ الحُكّام شيفًا عن تفاصيل تأليفها. 

على الرغم من أن العلماء والروائيين قد ينتهي بهم المطاف بمشاركة العمل مع 
الرويوتات» فبالنسبة إلى أغلبناء سيتجلى تأثيرُ البيكة القائمة على البيانات الضخمة على 
نحو أوضح في أنشطتنا اليومية؛ وذلك من خلال الأجهزة ASM‏ 


LS ÁI‏ الذكية 


V 3‏ ديسمير Y. V7‏ أعلنت gashi‏ أنها نجحت 3 Ja>‏ طائرتها الأولى من دون 
jb‏ لتوصيل الطلبات التجارية» تشق طريقها مسترشدة بنظام تحديد المواقع العالمي 
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البيانات الضخمة والمجتمع 


(جي بي إس). Gales plus‏ الطلب» وهو dey‏ يعيش في الريف بالقرب من كامبريدج 
ف«الملكة Ba ite ats Sle OV eos E E‏ ج وشل اسنات 
باستخدام طائراتِ من دون طيّار عميلان فقط من عملاء خدمة أمازون برايم cal‏ 
وكلاهما يعيشان ضمن مساحة تبلغ ٠,۲‏ أميال فقط من مركز التوزيع بالقرب من 
كامبريدج. ثمّة مقطع فيديى يعرض هذه الرحلة الجويةء وقد أشرنا إليه في قسم «قراءات 
إضافية». يبدو أن هذه الخدمة قد تكون إشارة البدء بجمع البيانات الضخمة من أجل 
هذا المشروع. 

شركة أمازون ليست الشركة الأولى التي تنجح في توصيل الطلبات التجارية باستخدام 
طائرات من دون طيّار. في نوفمبر ١٠١۲ء‏ بدأت شركة فليرتي في استخدام هذه الخدمة 
في توصيل البيتزا في حدود منطقة على مسافات صغيرة من مقرها في نيوزيلنداء كما 
كان يوجد عدد من المشروعات المشابهة في أماكن أخرى. يبدو ÉL‏ أن خدمات التوصيل 
باستخدام طائرات من دون طيّار ستزداد» خاصةً في الأماكن المنعزلة حيث يمكن إدارة 
مسائل الخصوصية. لا شك أن هجومًا Lig ASI!‏ أو حتى Uc‏ في الأنظمة الحاسوبية من 
ale‏ أن chad‏ في فوضى عارمة: إذا تعطّلت طائرة duasi‏ صغيرة من دون lib‏ على 
سبيل المثالء فقد تتسيّب في إصابة أو وفاة البشر أو الحيواناتء كما أنها قد تتسيّب في 
إلحاق أضرار جسيمة بالممتلكات. 

هذا ما Sas‏ عندما تمت السيطرة عن يُعد على البرنامج الذي Sats‏ في سيارة تسير 
على الطريق بسرعة 7١‏ ميلا في الساعة. في add 250١5‏ خبيران أمنيان» تشارلي ميلر 
وكريس فالاسيك» يعملان في مجلة «وايرد»» عرضًا على متطوّع لإثبات أن «يوكونيكت» 
Uconnect‏ وهى dog!‏ معلومات حاسوبية تُستخدّم في توصيل السيارة بالإنترنت» يمكن 
halai‏ عن تعد أثناء تحرّك السيارة. كانت نتائج التقرير مقلقة؛ فقد تمكّن المخترقان 
الخبيران من استخدام كمبيوتر محمول متصل بالإنترنت في التحكم في سيارة طراز جيب 
شيروكي على مستوى التوجيه والمكابح ونظام نقل الحركة» ووظائف أخرى أقل أهمية 
دحل eas‏ الوا ERE E E E‏ ققد له مره Vi‏ هيك فى SAG‏ 
طريق عام مزدحم عندما تعطّلت استجابة دواسة de pull‏ تمامًاء الأمر الذي )£58 السائق 
كثيرًاً. 

نتيجةٌ لهذا الاختبار» أصدرت شركة كرايسلر العاملة في مجال تصنيع السيارات 
تحذيرًا إلى ١,5‏ مليون مالك سيارة وأرسلت إليهم محركات أقراص «يو إس بي» تحتوي 
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البيانات الضخمة 


على تحديثات برامج لتثبيتها عبر منفذ في لوحة المعلومات. Goi‏ هذا الهجوم بسبب ثغرة 
أمنية في شبكة الهواتف الذكية a3‏ إصلاحها بعد ذلك» ولكن» توضح هذه القصة ضرورة 
التعامل مع فكرة احتمالية حدوث هجمات إلكترونية على المركبات الذكية قبل أن تُصبح 
هذه التقنية متداولة بالكامل. 

يبدو أن JA‏ المركبات الذاتية القيادة» less‏ من السيارات إلى الطائرات» أمرٌ حتمي. 
أصبحت الطائرات تطير ذاتيًا بالفعل» بما في ذلك الإقلاع والهبوط. وعلى الرغم من أن فكرة 
استخدام طائراتٍ من دون Gb‏ في نقل البشر على نطاق واسع مُستبعًّدة. فإنها تُستخدم 
WE‏ في الزراعة في عملية الرش الذكي للمحاصيلء وكذلك في الأغراض العسكرية. ريما 
لذ“قرال المركبات LSU!‏ ف مزاحل: تطورها الأول لاستخدامهاتق GALEN‏ العامة ولكن: 
أصبحت الأجهزة الذكية بالفعل جزءًا من المنازل الحديثة. 


المنازل الذكية 


كما ذكرنا في الفصل الثالثء يعد مصطلح «إنترنت الأشياء» طريقةً ملائمة للإشارة إلى 
الكغذان: الهاكلة من esau Sigal‏ الإلكترونية: Abell‏ والإنترنت.. saw Ye‏ :الال 
GI ass‏ جهاز إلكتروني يمكن تركيبه في المنزل والتحكم فيه عن بُعد» من خلال واجهة 
مستخدم يستعرضها قاطن المنزل عبر التلفزيون أو الهاتف الذكي أو الكمبيوتر المحمولء 
جهارًا GSi‏ ومن A‏ يكون جزءًا من إنترنت الأشياء. تَثبّت نقاط تحكم مركزية تعمل 
بالصوت في الكثير من المنازل» Ally‏ تتحكّم في الإنارة» والتدفئةء وأبواب المرائب» والكثير 
مق الألجهزة المتزلية الأخرى: يعتن Jhai‏ بالواي فاي (تشير إلى «دقة النقل اللاسلكي»؛ 
أن seal‏ هل الاتصال يعات : فل E GUE‏ باستكداع eld W Slee‏ يدلا دن 
الأسلاك) أنه يمكنك أن تسأل مكبّر الصوت الذكي Ge)‏ طريق أن تدعوه بالاسم الذي 
ستطلقه Gee‏ عن حالة الطقس ال محلي أو التقارير الإخبارية الوطنية. 

تقدّم هذه الأجهزة خدمات تستند إلى السحابة الإلكترونيةء وهي لا تخلو من العيوب 
Gla Leg‏ بالخصوصية: طالما أنَّ الجهاز قيد التشغيل» فكل ما تقول os Jou}‏ في 
خادم يعيد. خلال 3 تحقيق في جريمة قتل حدثت G50‏ طلبت الشرطة في الولايات المتحدة 
من شركة أمازون Í‏ ن تُفصح عن بيانات من أحد أجهزة sill) ss!‏ يعمل Saul‏ 3 
eating ceguall‏ مده LuSall sels‏ الوق Ladd!‏ اوفقي اترو اترات 
والققارين التخبا رق وها UREA COIS Gl)‏ اهدهم أذها aS sl casas yas ak‏ 
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شركة أمازون على فعل ذلك في البداية إلا أنَّ المشتبه به IÍ‏ لها بالإفصاح عن التسجيلات 
أملّا في أنها ستساعد في إثبات براءته. 

سيؤدّي المزيد من التطورء بناءً على الحوسبة السحابيةء إلى أن تصبح الأجهزة 
الكهربائية مثل الغسالات؛ والثلاجات» وروبوتات التنظيف المنزلية جزءًا من المنزل الذكيء 
ويتم التحكم فيها عن بُعد عبر الهواتف ASL‏ أو أجهزة الكمبيوتر المحمولة؛ أو مكبّرات 
الصوت المنزلية. وبما أنه يتم Sail‏ في جميع هذه ad ed AY! ne Lak!‏ لحمل ol‏ 
تكون Lae‏ للخطر من UGS‏ المخترقين؛ ومن ثم فإن الأمن مجال مهم يستوجب البحث. 

حتى لُعب الأطفال ليست مُحصّنة. فقد تعرّضت دمية ذكية» تُدعَى «صديقتى كايلا»» 
ا لعي iat‏ لک Ve glad‏ من فسان ان إضناعة اهاب SAM‏ 
بعد ذلك. يمكن للطفلء من خلال جهاز غير gagi‏ يعمل بالبلوتوث مخفي داخل الدمية 
أن يطرح dal‏ على الدمية ويسمع إجاباتها. ook‏ الوكالة الاتحادية للشبكات في ألمانياء 
المسئولة عن مراقبة الاتصالات عبر الإنترنت, ELI‏ على تدمير الدميةء والتي مُنع إنتاجها 
dle‏ بسبب ما dled‏ من خطر على الخصوصية. تمگن المخترقون من إثبات أنه من 
السهل GLU‏ أن يستمعوا إلى الطفل ويقدَّموا له obla,‏ غير مناسبة» بما في ذلك كلمات 
من قائمة الكلمات المحظورة التي وضعتها الشركة المصنّعة. 


المدن الذكية 


عن ell‏ مق أن المقارل obs USM‏ ف التحول إلى واقع Gad‏ المتوقع أن يحول an‏ 
الأشياء - بالإضافة إلى الأساليب المتعدّدة لتكنولوجيا المعلومات والاتصالات - المدنّ 
الذكية إلى واقع. بدأت الكثير من gall‏ بما فيها الهندء وأيرلنداء والمملكة المتحدةء وكوريا 
حول تحقيق فاعلية أكبر في alle‏ اليوم المزدحم» Bs‏ ظل النمو المطرد للمدن. يسجّل 
lass‏ سكان الريف إلى المدن معدلات ارتفاع متزايدة. في ١٠١۲ء‏ كان 05 في المائة من 
السكان يعيشون في المدن» ويحلول pigs Yro‏ الأمم المتحدة أن حوالي 57 في GUI‏ من 
سكان العالّم سيقطنون المدن. 
تَدفَع تقنية gall‏ الذكية بالأفكار المنفصلة المتراكمة من التطبيقات السابقة لإنترنت 
الأشياء وأساليب إدارة البيانات الضخمة. على سبيل المثال» ستكون السيارات من دون 
سائقء والمتابعة الصحية عن يُعدء والمنازل ASA‏ والعمل عن يُعد من claw‏ المدينة 
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الذكية. ستعتمد هذه المدينة على إدارة وتحليل البيانات الضخمة dada!‏ من جميع أجهزة 
الاستشعار الهائلة العدد في المدينة. ومن cad‏ فإن البيانات الضخمة وإنترنت الأشياء Lao‏ 
هما جوهر المدن الذكية 

Ll‏ عن أوجه eal‏ الذي تعود على المجتمع Gali SS‏ نظام الطاقة الذكي أحدها. 
فق شأن هذا النظاع أن ينظم إضاءة الشوارغ:.ومراقية الزون يل ومتابعة pam‏ القمامة: 
ويمكن تحقيق هذا كله من خلال تركيب EE‏ من واكاك تحديد الهوية بموجات 
الراديو وأجهزة استشعار لا سلكية في جميع أنحاء المدينة. سترسل هذه البطاقةء المكوّنة 
من شريحة دقيقة وهوائي صغيرء البيانات من الأجهزة المنفردة إلى موقع مركزي لتحليلها. 
على سبيل SEM‏ يمكن لإدارة المدينة أن تتابع الحالة المرورية عن طريق تركيب بطاقات 
تحديد الهوية بموجات الراديو في السيارات» وكذلك كاميرات رقمية في الشوارع. وسيكون 
الأمان الشخصي gall‏ أحد الاعتبارات LAI‏ إذ يمكن على سبيل المثال وضع بطاقات 
مع الأطفال Vu‏ ومتابعتهم عبر الهاتف المحمول لأحد الوالدين أو كليهما. ستنتج أجهزة 
الاستشعار هذه كميةٌ هائلة من البيانات التى ستحتاج إلى متابعة ويل في الوقت 
الحقيقي عبر وحدة معالجة gbile‏ مركزية. ويمكن استخدامها بعد ذلك في مجموعة 
متنوّعة من الأغراض» Ley‏ في ذلك قياس معدل الانسياب المروري» وتحديد مواقع الاختناقات 
المرورية» واقتراح مسارات بديلة. ولا شك أ ن أمن البيانات Kid‏ أهميةٌ قصوى في هذا 
m‏ 3 عطل أو اختراق كبير للنظام سيؤثر سريعًا في ثقة المواطنين. 

نشئت منطقة الأعمال الدولية في سونجدو بكوريا الجنوبية خصوصًا لتكون مدينةٌ 

ذكية. ومن بين السمات الرئيسية لهذه المدينة أنها تحتوي على اتصال واسع النطاق 
بالإنترنت عبر الألياف الضوئية. وتُستخدّم هذه التقنية الحديثة لضمان سرعة الوصول 
إلى السمات المرغوية للمدينة الذكية. كما أن المدن الذكية الجديدة مُصمّمة للحد من 
الآثار البيئية السلبيةء ما يجعلها نموذج امن المستقيلية المستدامة. فاخن أن ESN‏ من 
all‏ الك Sho‏ رتو "مكيف و تك بخصوضا لهذا ارك فا الدن العالية 
ستستلزم تحديث ينيتها التحتية Gis‏ 

في TV gale‏ كشفت مبادرة النبض العالمى التابعة للأمم المتحدةء وهى مبادرة 
cg‏ إل ال يه LN‏ التيافات شك من اكل الاك الان الات عن iil‏ 
المفتونعة تحت عنوان «مشنايقة الأفكار العظيمة لهام 413 gato‏ المسترامة) للدول العشن 
الأعضاء في رابطة دول جنوب شرق آسيا ودولة كوريا. بحلول موعد المسابقة النهائي في 
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شهر يونيىء جرى استلام ASI‏ من FES 26١‏ حا lel‏ عن الفائزين في العديد من الفكات 
في شهر أغسطس YNT‏ فازت دولة كوريا بالجائزة الكبرى على مقترحها لتحسين 
وسائل النقل والمواصلات العامة عن طريق تقليل فترات الانتظار استنادًا إلى المعلومات 
المستقاة من الجمهور حول صفوف QUAL‏ 


ستشراف المستقبل 
الماضية بفضل مظاهر التقدّم التقني التى تحققت تحفّقت بابتكار الإنترنت والگون “agai!‏ 3 


هذا الفصل الأخيرء استرقنا النظر على بعض الجوانب في حياتنا التي تلعب البيانات 
الضخمة دورًا Lage‏ في تشكيلهاء سواءٌ في الحاضر أو المستقبل. وعلى الرغم من أنه لا 
يمكننا أن نأمل في أن (bas‏ جميع الجوانب التي AB‏ نبوا بد امه المح واد 
المقدمة القصيرةء فقد تناولنا بعضًا من التطبيقات المتنوّعة التي تؤثر فينا بالفعل. 

ستزداد البيانات التي يُنتجها العالّم أكثر فأكثر. ولا شك في أن أساليب التعامُل مع 
كل هذه البيانات بفاعلية وبطريقة مجدية ستظل موضوع الأبحاث ASII‏ لا سيّما في 
مجال التحليل في الوقت الحقيقي. تشير ثورة البيانات الضخمة إلى بداية تغيير جذري في 
الطريقة التى يسير بها العالّم» وكما هو الحال مع جميع مظاهر التقدٌّم التقني» أصبح 
الأفرادء والعلماءء والحكومات؛ مجتمعين يتحمّلون مسئوليةٌ أخلاقية تمان اسككدانها 
على النحو الصحيح. EEE N E‏ مال E asp‏ 
استخدامها Sel‏ متروك لنا. 


جدول سعة التخزين بالبايت 


المصطلح معناه 

بت رقم ثنائي واحد: صفر أو واحد 
cob‏ ۸بت 

كيلوبايت ٠بايت‏ 

ميجابايت ٠‏ كيلوبايت 


NNA 
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المصطلح معناه 
جيجابايت ٠٠٠‏ ميجابايت 
تيرابايت ٠٠‏ جيجابايت 
بيتابايت ٠٠‏ تیرابایت 
إكسابايت ٠٠‏ ٠بيتابايت‏ 
زيتابايت ٠٠‏ إكسابايت 
يوتابايت ٠٠٠‏ زيتابايت 


جدول الشفرة القياسية الأمريكية لتبادل المعلومات للأحرف الإنجليزية الصغيرة 


الحرف النظام السداسي العشري النظام الثنائى النظام العشري 
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الحرف النظام السداسي العشري النظام الثنائي النظام العشري 
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